• 文件
  • 知识库

经典统计方法在识别乳腺癌患者生存的新靶点方面具有强大作用。

原标题:Classical statistical methods are powerful for the identification of novel targets for the survival of breast cancer patients

Benyapa InsawangMax WardZhaoyu LiAmittava Datta

bioRxiv (2024)

|

5

关键词

gene expression
biomarkers
breast cancer
survival analysis
KS test
JS divergence
statistical methods
TCGA
bootstrapping
cancer subtypes

摘要

乳腺癌是导致女性癌症相关死亡的主要原因之一。识别与生存相关的靶基因对于改善乳腺癌患者的预后和治疗结果至关重要。许多方法已被应用于这项研究,如生物信息学和机器学习方法,但从这些方法中识别出的靶点很少在临床上得到应用。在此,我们提出了一种新方法,使用Kolmogorov-Smirnov(KS)检验和Jensen-Shannon(JS)散度等经典统计方法,分析来自癌症基因组图谱(TCGA)的乳腺癌患者(BRCA)的生存时间和基因表达数据。这些方法有助于比较生存时间分布,并根据基因表达谱将患者分为高风险和低风险组。基于KS检验识别出1,124个与生存相关的基因,基于JS散度值识别出18个。我们还确定了这些靶基因表达水平的最佳阈值,从而实现了对所有乳腺癌患者及每种亚型乳腺癌患者的生存组的最佳区分。这些靶点通过自举法进一步验证,以确保显著结果不是偶然的。通过与先前研究中的生存靶点比较,我们发现其中两个是新靶点,两个与先前报告一致。总体而言,我们的研究通过整合一系列经典统计方法,如KS检验、JS散度和自举法,为识别乳腺癌患者的生存靶点提供了一种新方法。我们的方法也可以应用于识别其他癌症类型的生存靶点,并为癌症研究和临床应用提供有价值的见解。

AI理解论文

图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览

这篇论文探讨了乳腺癌患者生存相关基因的识别,并提出了一种新颖的方法,结合经典统计方法如Kolmogorov-Smirnov (KS) 检验Jensen-Shannon (JS) 散度,分析来自癌症基因组图谱 (TCGA) 的乳腺癌患者的生存时间和基因表达数据。研究的主要目标是通过基因表达谱将患者区分为高风险和低风险组,从而识别出与生存相关的目标基因。

研究背景与动机

乳腺癌是全球女性癌症相关死亡的主要原因之一。识别与生存相关的目标基因对于改善乳腺癌患者的预后和治疗结果至关重要。尽管已有多种方法用于此类研究,如生物信息学和机器学习方法,但这些方法识别出的目标基因很少应用于临床。传统的统计模型,如Cox模型,由于依赖于比例风险假设,在癌症进展中可能存在局限性。因此,研究者们探索了替代的距离度量方法,以更有效地衡量生存时间的差异。

方法与技术

论文中使用的KS检验是一种非参数方法,不依赖于特定的分布假设,适用于比较两个样本的经验分布。JS散度则用于比较概率分布的相似性,通过计算每个分布与其平均值之间的Kullback-Leibler (KL) 散度的平均值来实现。通过这些方法,研究者能够确定基因表达水平,有效区分患者的生存时间分布。

研究结果

  1. 生存相关基因的识别

    • 使用KS检验,研究者识别出1124个生存相关基因。通过引入自举法(bootstrapping),确保结果的显著性不是偶然的。
    • 使用JS散度,识别出18个显著基因,其中11个属于LumA亚型,1个属于LumB亚型。
  2. 基因验证

    • 通过KS检验和JS散度,识别出四个基因(DTYMK, LINC01311, PYY2, TMEM222)与所有亚型相关。这些基因与癌症相关,其中DTYMK是乳腺癌的预后生物标志物。
  3. 风险组划分的比较

    • 研究表明,使用最佳表达水平而非中位数来划分风险组,可以更好地区分患者组,增强生存概率的差异性。

讨论与贡献

研究指出,某些基因可能通过形成非常小的组来实现低p值,而不考虑每组的患者数量。为此,研究者建议引入过滤器或限制条件,以确保低p值并创建更平衡的组。JS散度方法识别的显著基因可能存在较高的假阳性率,而KS检验提供了更可靠的结果。

通过使用统计方法,研究者能够从小数据集中提取可靠的见解,识别出基因表达水平有效区分患者风险组。这种方法减少了计算需求,并能与现有研究进行交叉验证,增强了发现的临床相关性。

结论

研究识别出两个新基因(PYY2和TMEM222)与乳腺癌患者的生存率相关,强调了稳健统计方法在揭示潜在生物标志物方面的重要性。这些发现有助于加深对癌症生物学和患者预后的理解。

专业术语解释

  • Kolmogorov-Smirnov (KS) 检验:一种用于比较两个样本分布的非参数统计检验。
  • Jensen-Shannon (JS) 散度:一种用于测量两个概率分布相似性的度量。
  • 自举法(bootstrapping):一种统计方法,通过重采样来估计样本统计量的分布。

通过这些方法,研究者提出了一种简单而强大的工具,用于筛选基因列表,为未来的分析提供了一种替代复杂模型的方法。

Chat Paper

当前问答基于全文

转入私有库对话