• 文件
  • 知识库

DeepAllo:使用蛋白质语言模型(pLM)和多任务学习进行变构位点预测

原标题:DeepAllo: Allosteric Site Prediction using Protein Language Model (pLM) with Multitask Learning

Moaaz KhokharOzlem KeskinA. Gursoy

bioRxiv (2025)

|

5

关键词

Allostery
Allosteric Site Prediction
Protein Language Model
DeepAllo
Deep Learning
Multitask Learning
FPocket
XGBoost
AutoML
ProtBERT

摘要

变构作用是指一个位点的结合影响远处位点的过程,在药物开发领域因其对蛋白质功能的重大影响而成为关键焦点。识别变构口袋(位点)是一项具有挑战性的任务,已经开发了多种技术,包括利用静态和口袋特征的机器学习(ML)来预测变构口袋。我们的工作,DeepAllo,是首个将精调的蛋白质语言模型(pLM)与FPocket特征结合的研究,并显示出在变构位点预测性能上的提升。pLM模型在多任务学习(MTL)设置下对变构数据集(ASD)进行了精调,并进一步用作特征提取器来训练XGBoost和AutoML模型。最佳模型以89.66%的F1得分预测变构口袋,并在前三个位置中预测出90.5%的变构口袋,优于以往的结果。我们对已知变构口袋的蛋白质进行了案例研究,证明了我们方法的有效性。此外,还通过可视化其在变构和非变构残基之间的注意力机制,努力解释pLM。

AI理解论文

图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览

这篇论文的主要内容围绕DeepAllo,一种利用蛋白质语言模型(pLM)结合多任务学习(MTL)进行变构位点预测的方法。变构作用是指在一个位点的结合会影响远处位点的过程,是药物开发中的关键研究领域。识别变构位点是一项具有挑战性的任务,论文提出了一种新的方法来提高预测性能。

引言

论文首先介绍了变构作用的背景及其在药物开发中的重要性。传统药物通常通过直接结合活性位点来改变蛋白质的活性,而变构药物则通过结合蛋白质表面的其他区域来实现,这些区域在蛋白质家族中不太保守,因此可能具有更少的副作用。

方法

论文提出的DeepAllo方法结合了蛋白质语言模型(pLM)FPocket特征。pLM是一种预训练模型,能够从蛋白质序列中提取特征。FPocket是一种用于检测蛋白质结构中配体结合口袋的开源平台。研究人员将pLM提取的特征与FPocket的特征结合,使用XGBoostAutoML模型进行训练,以预测变构口袋。

数据集

使用了AlloSteric Database (ASD),这是一个每年更新的变构蛋白质集合。经过预处理后,提取了207个蛋白质,并随机分为80%的训练集和20%的测试集。数据集中存在显著的类别不平衡,正样本(变构口袋)仅占7.76%。

模型架构

研究人员对ProtBERT-BFD模型进行了微调,采用多任务学习(MTL)设置,包含两个预测头:一个用于预测变构残基,另一个用于预测蛋白质的二级结构。多任务学习的目的是通过从相关任务中获取信息来提高特定任务的预测性能。

实验结果

论文的实验结果表明,结合pLM和FPocket特征的模型在预测变构位点方面优于现有方法。最佳模型在预测变构口袋时达到了89.66%的F1得分,并且在前3个位置中正确预测了90.5%的变构口袋。

讨论

论文讨论了pLM在捕捉变构残基时的注意力机制,并通过可视化展示了模型如何在序列中识别变构位点。尽管pLM能够预测变构残基,但其独立预测变构位点的能力有限。此外,由于数据集的不平衡和缺乏实验方法,难以测试新变构蛋白质的模型。

结论

研究表明,通过在多任务学习框架下微调pLM,可以提高变构位点的预测性能。论文建议未来可以利用更复杂的pLM模型,如基于T5架构的ProtT5,以进一步提高预测性能。

贡献

这项研究的主要贡献在于首次将pLM应用于变构位点预测,并证明了结合pLM和FPocket特征的模型在性能上的提升。研究还提供了对深度学习模型的解释,展示了pLM如何捕捉变构残基的注意力机制。

术语解释

  • 变构作用(Allostery):一种通过在一个位点结合来影响远处位点的机制。
  • 蛋白质语言模型(pLM):一种用于从蛋白质序列中提取特征的预训练模型。
  • 多任务学习(MTL):一种通过同时学习多个相关任务来提高模型性能的方法。
  • FPocket:用于检测蛋白质结构中配体结合口袋的开源平台。
  • XGBoost:一种高效的梯度提升决策树算法。
  • AutoML:自动化机器学习技术,用于自动选择和优化机器学习模型。

通过这篇论文,读者可以全面了解如何利用先进的机器学习技术来改进变构位点的预测,并认识到pLM在生物信息学领域的潜力。

Chat Paper

当前问答基于全文

转入私有库对话