• 文件
  • 知识库

基于RNA测序的机器学习模型用于多发性骨髓瘤的预后预测

原标题:RNAseq-Based Machine Learning Models for Prognostication of Multiple Myeloma

K. U. ShahK. A. MillanA. PulaT. KubickiJ. CannovaS. WuM. BhagwatQ. C. GuentherJ. CooperriderG. RoloffA. VenkatB. A. DermanA. JakubowiakM. Drazer

medRxiv (2025)

|

5

关键词

Multiple Myeloma
Machine Learning
RNA-sequencing
Prognostic Biomarkers
Random Survival Forest
Gradient Boosted
Overall Survival
Progression-Free Survival
Gene Expression
Clinical Data

摘要

背景:多发性骨髓瘤(MM)的特征是骨髓中异常的浆细胞增殖,导致溶骨性病变、贫血、高钙血症和血清肌酐升高等症状。基于RNA测序的MM预后指标在风险分层和评估一线治疗方案方面显示出希望。本研究利用机器学习技术,并结合来自多发性骨髓瘤研究基金会(MMRF)CoMMpass队列的RNA测序、临床和生化数据来预测患者预后。方法:对708名MM患者骨髓样本中60,623个基因的RNAseq数据进行预处理以校正批次效应,并将数据分为训练集(70%)和测试集(30%)。特征选择涉及MAD、mRMR和迭代置换重要性过滤,以预测无进展生存期(PFS)和总生存期(OS)。开发并优化了随机生存森林(RSF)、梯度提升(GB)和分量梯度提升(CGB)等机器学习生存模型。使用C指数和综合Brier评分(IBS)评估性能。结果:RSF和GB模型在测试数据集上显示出对无进展生存期(PFS)和总生存期(OS)的最高预测性能。PFS的重要特征包括干细胞移植状态、血清β2-微球蛋白水平、种系突变状态,以及C12orf75和ENSG00000256006的表达。对于OS,干细胞移植状态、年龄、血清β2-微球蛋白水平、种系突变状态,以及NUTM2B-AS1和ENSG00000287022的表达尤为突出。基因本体分析证实了与细胞分裂、蛋白质定位和癌症相关的富集通路的生物学相关性。结论:将RNAseq和临床数据与先进的机器学习模型相结合,为预测MM预后提供了一种稳健的方法,突出了基因表达程序、种系突变状态和临床标志物作为重要特征。未来的研究应集中于独立验证以确认发现,并探索额外的基因组数据以增强预后预测。

AI理解论文

该文档主要探讨了多发性骨髓瘤(MM)的预后预测模型的开发与验证。研究利用MMRF CoMMpass数据集中的RNA测序、临床和生化数据,通过机器学习技术预测患者的预后。以下是该文档的主要内容:

研究背景与目的

多发性骨髓瘤是一种由骨髓中异常浆细胞克隆性增殖引起的癌症。常见症状包括骨质溶解性病变贫血高钙血症血清肌酐升高。这些标志物已被纳入MM的诊断标准,并与分子细胞遗传学分类结合形成**国际分期系统(ISS)**用于风险分层。研究的主要目的是通过整合RNA测序和临床数据,利用先进的机器学习模型来预测MM的预后。

方法

研究使用了MMRF CoMMpass Interim Analysis 22的数据,涉及RNA测序计数数据、临床、生化和生存数据。研究还首次将种系突变数据纳入MM聚焦的机器学习模型中。机器学习模型包括随机生存森林梯度提升组件式梯度提升模型。这些模型用于预测患者的无进展生存期(PFS)总生存期(OS)

机器学习模型

  • 随机生存森林:一种用于生存分析的非参数方法,通过构建多个决策树来预测生存时间。
  • 梯度提升:一种提升方法,通过逐步添加弱学习器来提高模型的预测性能。
  • 组件式梯度提升:一种改进的梯度提升方法,能够更好地处理高维数据。

结果

研究结果表明,整合RNA测序和临床数据的机器学习模型能够有效预测MM患者的PFS和OS。梯度提升模型在训练和测试数据集上的表现优于其他模型,显示出较高的C-Index和较低的综合Brier分数。研究还通过基因本体(GO)术语富集分析确认了与细胞分裂、蛋白质定位和癌症相关的生物学通路的生物学相关性。

讨论

研究强调了RNA表达模式拷贝数变异免疫球蛋白易位的显著关联,这为无需全基因组或全外显子测序的预后签名提供了可能性。研究还指出,PFS作为研究终点较OS更少受到交叉和进展后治疗的影响,因此更适合用于MM的研究。

结论与未来研究方向

研究结论指出,整合RNA测序和临床数据的机器学习模型为预测MM预后提供了一种稳健的方法,强调了基因表达程序种系突变状态临床标志物作为显著特征。未来研究应关注独立验证以确认研究结果,并探索额外的基因组数据以增强预后预测能力。

贡献

该研究首次将种系突变数据纳入MM的机器学习模型中,并开发了预测PFS和OS的梯度提升模型。这为MM的风险分层和治疗决策提供了新的视角和工具。

术语解释

  • 无进展生存期(PFS):指从治疗开始到疾病进展或患者死亡的时间。
  • 总生存期(OS):指从治疗开始到患者死亡的时间。
  • 基因本体(GO)术语:用于描述基因产品的功能、细胞位置和生物过程的标准化术语。

通过该研究,研究人员为MM的预后预测提供了新的方法和视角,强调了多模态数据整合和机器学习技术在医学研究中的潜力。

Chat Paper

当前问答基于全文

转入私有库对话