• 文件
  • 知识库

miRTarDS:利用Sentence-BERT从预测数据库中高精度提取蛋白质水平的微RNA靶点相互作用

原标题:miRTarDS: High-Accuracy Refining Protein-level MicroRNA Target Interactions from Prediction Databases Using Sentence-BERT

Baiming Chen

bioRxiv (2025)

|

5

关键词

MicroRNA
基因关系
预测方法
疾病语义
生物医学
miRNA-gene
机器学习
数据处理
免疫炎症
语义相似性

摘要

MicroRNAs(miRNAs)通过与mRNAs结合来调节基因表达,抑制翻译或促进mRNA降解。miRNAs在多种疾病的发展中具有重要意义。目前,有许多基于序列的miRNA靶标预测工具可用,但其中只有1%的预测得到了实验验证。在本研究中,我们提出了一种新方法,该方法利用miRNAs和基因之间的疾病相似性度作为关键特征,以进一步优化基于人类序列的预测miRNA靶标相互作用(MTIs)。为了量化疾病的相似性度,我们对Sentence-BERT模型进行了微调。我们的方法在准确区分人类蛋白水平的实验验证MTIs(通过蛋白质印迹或报告基因检测验证的功能性MTIs)和预测MTIs中取得了0.88的F1得分。此外,该方法在不同数据库中表现出卓越的泛化能力。我们将所提出的方法应用于分析来自miRTarbase、miRDB和miRWalk的1,220,904个人类MTIs,包括6,085个基因和1,261个前体miRNAs。我们的模型在miRTarBase 2022中进行了训练。然而,我们准确识别出miRTarbase 2025中90%(518/574)的更新功能性MTIs。本研究有可能为理解miRNA-基因调控网络提供宝贵的见解,并促进疾病诊断、治疗和药物开发的进步。

AI理解论文

这篇论文提出了一种名为MicroRNA-Gene Connection Building Method的方法,用于预测microRNA(miRNA)与基因之间的关系。miRNA是一种长度约为22个核苷酸的非编码RNA,通过与目标mRNA结合来调控基因表达,抑制翻译或促进mRNA降解。miRNA在疾病的发展中具有重要作用。现有多种miRNA预测工具能够识别和预测miRNA序列及其靶基因,为研究miRNA调控网络、解析疾病机制和开发潜在治疗策略提供关键支持。

研究背景与动机:自1993年首次在人类中发现miRNA以来,随着高通量测序和生物信息学等技术的发展,发现了大量miRNA。miRNA在调节许多生理过程(如细胞周期、细胞生长、发育、分化和凋亡)以及病理过程(如癌症)中发挥关键作用。此外,miRNA可能是早期检测或预后各种疾病的有前景的生物标志物。

方法概述:论文提出了一种基于**Sentence-BERT(SBERT)**模型的预测方法,通过miRNA和基因疾病语义相似性来预测miRNA-基因关系。SBERT是BERT(双向编码器表示转换器)模型的扩展,使用连体和三重网络结构进行微调,在语义相似性任务中表现良好。该方法在超过1900对实验和预测数据上进行了训练,并使用分层交叉验证(StratifiedKFold)评估,模型准确率超过90%。

数据处理:研究使用了四个数据库:miRTarbase、miRWalk、HMDD和DisGeNet。miRTarbase提供实验验证的miRNA-基因对,miRWalk提供预测的miRNA-基因对,HMDD提供与疾病相关的miRNA数据,DisGeNet提供与疾病相关的基因数据。通过合并相同miRNA的-3p和-5p数据,处理了miRTarbase数据以匹配HMDD数据库。

模型设计与评估:论文设计了一种算法,通过计算疾病列表之间的平均相似性或聚类元素的相似性来评估疾病列表的整体相似性。使用余弦相似性计算语义向量之间的相似性,并通过聚类方法评估聚类结果。模型在去除每个基因的上下10%异常值后,使用支持向量机(SVM)进行分类,准确率达到90%。通过分层交叉验证,模型在不同数据子集上表现出高稳定性和可靠性。

结果与讨论:研究表明,模型在癌症相关基因上的表现与生物学证据基本匹配。此外,研究还测试了与免疫和炎症通路相关的10个基因,模型在这些基因上的准确率为86%,表明该模式具有较高的普适性。研究认为,miRNA与疾病之间可能存在很强的相关性,仅通过计算疾病的语义字符串相似性即可实现高水平的准确性。

贡献与展望:该方法具有良好的扩展性,可用于计算其他生物分子之间的疾病语义相似性,以探索生物分子之间的相互作用。未来,该方法可能用于构建高精度的预测网络,为诊断和治疗提供有力支持。

术语解释

  • miRNA:一种非编码RNA,调控基因表达。
  • Sentence-BERT(SBERT):一种用于语义相似性任务的深度学习模型。
  • 余弦相似性:用于衡量两个向量之间相似度的度量方法。
  • 支持向量机(SVM):一种用于分类和回归分析的监督学习模型。

通过这篇论文,研究者展示了自然语言处理方法在生物医学领域的应用潜力,尤其是在miRNA与基因关系预测中的应用。

Chat Paper

当前问答基于全文

转入私有库对话