基于RNA测序的机器学习模型用于多发性骨髓瘤的预后预测
原标题:RNAseq-Based Machine Learning Models for Prognostication of Multiple Myeloma
5 分
关键词
摘要
背景:多发性骨髓瘤(MM)的特征是骨髓中异常的浆细胞增殖,导致溶骨性病变、贫血、高钙血症和血清肌酐升高等症状。基于RNA测序的MM预后指标在风险分层和评估一线治疗方案方面显示出希望。本研究利用机器学习技术,并结合来自多发性骨髓瘤研究基金会(MMRF)CoMMpass队列的RNA测序、临床和生化数据来预测患者预后。方法:对708名MM患者骨髓样本中60,623个基因的RNAseq数据进行预处理以校正批次效应,并将数据分为训练集(70%)和测试集(30%)。特征选择涉及MAD、mRMR和迭代置换重要性过滤,以预测无进展生存期(PFS)和总生存期(OS)。开发并优化了随机生存森林(RSF)、梯度提升(GB)和分量梯度提升(CGB)等机器学习生存模型。使用C指数和综合Brier评分(IBS)评估性能。结果:RSF和GB模型在测试数据集上显示出对无进展生存期(PFS)和总生存期(OS)的最高预测性能。PFS的重要特征包括干细胞移植状态、血清β2-微球蛋白水平、种系突变状态,以及C12orf75和ENSG00000256006的表达。对于OS,干细胞移植状态、年龄、血清β2-微球蛋白水平、种系突变状态,以及NUTM2B-AS1和ENSG00000287022的表达尤为突出。基因本体分析证实了与细胞分裂、蛋白质定位和癌症相关的富集通路的生物学相关性。结论:将RNAseq和临床数据与先进的机器学习模型相结合,为预测MM预后提供了一种稳健的方法,突出了基因表达程序、种系突变状态和临床标志物作为重要特征。未来的研究应集中于独立验证以确认发现,并探索额外的基因组数据以增强预后预测。
AI理解论文
该文档主要探讨了多发性骨髓瘤(MM)的预后预测模型的开发与验证。研究利用MMRF CoMMpass数据集中的RNA测序、临床和生化数据,通过机器学习技术预测患者的预后。以下是该文档的主要内容:
研究背景与目的
多发性骨髓瘤是一种由骨髓中异常浆细胞克隆性增殖引起的癌症。常见症状包括骨质溶解性病变、贫血、高钙血症和血清肌酐升高。这些标志物已被纳入MM的诊断标准,并与分子细胞遗传学分类结合形成**国际分期系统(ISS)**用于风险分层。研究的主要目的是通过整合RNA测序和临床数据,利用先进的机器学习模型来预测MM的预后。
方法
研究使用了MMRF CoMMpass Interim Analysis 22的数据,涉及RNA测序计数数据、临床、生化和生存数据。研究还首次将种系突变数据纳入MM聚焦的机器学习模型中。机器学习模型包括随机生存森林、梯度提升和组件式梯度提升模型。这些模型用于预测患者的无进展生存期(PFS)和总生存期(OS)。
机器学习模型
- 随机生存森林:一种用于生存分析的非参数方法,通过构建多个决策树来预测生存时间。
- 梯度提升:一种提升方法,通过逐步添加弱学习器来提高模型的预测性能。
- 组件式梯度提升:一种改进的梯度提升方法,能够更好地处理高维数据。
结果
研究结果表明,整合RNA测序和临床数据的机器学习模型能够有效预测MM患者的PFS和OS。梯度提升模型在训练和测试数据集上的表现优于其他模型,显示出较高的C-Index和较低的综合Brier分数。研究还通过基因本体(GO)术语富集分析确认了与细胞分裂、蛋白质定位和癌症相关的生物学通路的生物学相关性。
讨论
研究强调了RNA表达模式与拷贝数变异和免疫球蛋白易位的显著关联,这为无需全基因组或全外显子测序的预后签名提供了可能性。研究还指出,PFS作为研究终点较OS更少受到交叉和进展后治疗的影响,因此更适合用于MM的研究。
结论与未来研究方向
研究结论指出,整合RNA测序和临床数据的机器学习模型为预测MM预后提供了一种稳健的方法,强调了基因表达程序、种系突变状态和临床标志物作为显著特征。未来研究应关注独立验证以确认研究结果,并探索额外的基因组数据以增强预后预测能力。
贡献
该研究首次将种系突变数据纳入MM的机器学习模型中,并开发了预测PFS和OS的梯度提升模型。这为MM的风险分层和治疗决策提供了新的视角和工具。
术语解释
- 无进展生存期(PFS):指从治疗开始到疾病进展或患者死亡的时间。
- 总生存期(OS):指从治疗开始到患者死亡的时间。
- 基因本体(GO)术语:用于描述基因产品的功能、细胞位置和生物过程的标准化术语。
通过该研究,研究人员为MM的预后预测提供了新的方法和视角,强调了多模态数据整合和机器学习技术在医学研究中的潜力。
Chat Paper
当前问答基于全文