利用蛋白质结构图嵌入预测错义变体的致病性
原标题:Utilizing protein structure graph embeddings to predict the pathogenicity of missense variants
5 分
关键词
摘要
背景 基因变异可以影响相应蛋白质的结构,从而对蛋白质功能产生不利影响。虽然蛋白质截断变异的影响通常较容易评估,但大多数基因变异是错义变异。这些变异大多是单核苷酸变异,导致单个氨基酸的交换。这些变异对蛋白质功能的影响很难推断。为了帮助解释错义变异,已经开发了多种生物信息学算法,但目前的算法很少直接将蛋白质结构作为一个考虑因素。结果 我们开发了一种机器学习工作流程,利用蛋白质语言模型ESMFold预测错义变异的蛋白质结构,随后使用图自动编码器进行嵌入。生成的嵌入用于预测致病性的分类器模型。我们提供的证据表明,生成的图嵌入提高了XGBoost致病性预测器的分类准确性,这应当导致其在人体遗传疾病中的广泛应用。此外,我们探索了图嵌入的不同抽象水平及其对分类器的影响。最后,我们比较了来自不同蛋白质折叠模型的图嵌入的实用性。
AI理解论文
这篇论文主要探讨了如何利用蛋白质结构图嵌入来预测错义变体的致病性。以下是对论文的详细总结:
背景与动机
遗传变异可能影响蛋白质的结构,从而对其功能产生不利影响。尽管蛋白质截断变体的影响较易评估,但大多数遗传变异是错义变体,即单个核苷酸变异导致氨基酸的替换。这些变体对蛋白质功能的影响难以推断。现有的生物信息学算法很少直接使用蛋白质结构作为特征。本文开发了一种机器学习工作流程,利用蛋白质语言模型ESMFold预测错义变体的蛋白质结构,并通过图自动编码器生成嵌入,用于致病性预测。
方法
研究中使用了XGBoost分类器,这是一种以预测准确性和计算效率著称的梯度提升框架。研究者通过五折交叉验证来训练和评估模型,确保模型性能评估的准确性。为了优化分类器的超参数,使用了Optuna框架进行100次试验,以确定最佳超参数集。研究中使用的特征包括编码的氨基酸参考和替代、氨基酸位置、变体和野生型蛋白质的结构嵌入,以及这些结构嵌入的余弦距离。
结果
研究表明,使用结构图嵌入的XGBoost分类器在预测错义变体的致病性方面表现更好。通过计算SHAP值,研究者评估了特征的重要性,发现等位基因频率是最具影响力的特征,其次是野生型和突变体结构的图嵌入。研究还发现,较小的嵌入尺寸(128)比较大的嵌入尺寸(256)表现更好。
讨论
与现有模型的区别在于,本文的方法用图自动编码器生成的图嵌入替代了手动特征工程过程,这种方法兼容于从任意计算建模方法和真实结构中预测的结构。尽管ESMFold的预测精度略低于AlphaFold2,但其较小的计算需求使得研究者能够预测整个ProteinGym临床替代数据集的野生型和变体结构。
贡献与未来方向
本文的工作流程展示了一种在致病性分类任务中包含蛋白质三维结构的方法,具有广泛的适用性。未来的研究可以探索从不同模型生成的结构(包括实验确定的结构)中提取的图嵌入作为输入特征的效用。此外,研究者建议在未来的工作中探索更多特征(如进化保守性分数)的效用,以进一步提高模型的性能。
术语解释
- 错义变体:一种基因变异,导致蛋白质序列中一个氨基酸被另一个氨基酸替换。
- XGBoost:一种高效的梯度提升决策树算法,广泛用于分类和回归任务。
- SHAP值:一种用于解释机器学习模型输出的工具,量化每个特征对预测结果的贡献。
- 图自动编码器:一种神经网络模型,用于从图结构数据中学习低维嵌入表示。
通过本文的研究,研究者展示了如何有效利用蛋白质结构信息来提高遗传变异致病性预测的准确性,为人类遗传疾病的研究提供了新的工具和视角。
Chat Paper
当前问答基于全文