基于协同进化信息和深度学习的蛋白质功能预测

打开文本图片集
摘 要:蛋白质的功能对于理解细胞和生物的活动机制、研究疾病机理等至关重要。面对序列数据库的快速增长,传统的实验和序列对比方法不足以支撑大规模的蛋白质功能标注。为此,提出EGNet(evolutionary graph network)模型,采用蛋白质预训练语言模型ESM2和onehot编码得到蛋白质序列编码,通过序列自注意力和物理计算整合出残基间的协同进化信息PI(paired interaction)和SPI(strong paired interaction);之后将两种进化信息和序列编码作为多层串联图卷积网络输入,学习序列编码节点特征,实现端到端的蛋白质功能预测。(剩余15468字)