• 文件
  • 知识库

Singletrome:一种用长非编码RNA对单细胞表达谱进行分析和增强的方法

原标题:Singletrome: A method to analyze and enhance the transcriptome with long noncoding RNAs for single cell analysis

Raza-Ur RahmanIftikhar AhmadZixiu LiR. SparksAmel Ben SaadAlan C Mullen

bioRxiv (2025)

|

5

关键词

Seurat
FindAllMarkers
XGBoost
lncRNA
Singletrome
differential expression
cell type prediction
RandomizedSearchCV
gene expression
liver cirrhosis

摘要

单细胞RNA测序(scRNA-seq)彻底改变了对各个细胞类型中基因表达的研究,但scRNA-seq研究主要集中于蛋白质编码基因的表达。长非编码RNA(lncRNA)比蛋白质编码基因更加多样,但由于它们在应用于scRNA-seq的参考注释中代表性不足,目前仍未得到充分探索。仅仅合并包含蛋白质编码和lncRNA基因的注释是不够的,因为增加与蛋白质编码基因在正义链和反义链上重叠的lncRNA基因会影响蛋白质编码和lncRNA基因的读取计数。在本文中,我们介绍了Singletrome,这是一种用于合并蛋白质编码和lncRNA基因转移格式(GTF)注释的Singularity镜像,生成增强的注释,考虑到注释基因的正义链和反义链重叠,映射scRNA-seq数据,并生成用于下游分析和可视化的文件。使用Singletrome,我们观察到映射到外显子的读取数量增加,检测到数千个未包含在GENCODE中的lncRNA,并观察到唯一映射的读取减少,表明映射特异性得到提高。此外,我们仅基于lncRNA表达成功聚类了不同的细胞类型,并且仅通过lncRNA就能够通过机器学习预测细胞类型和人类疾病的病理。这一综合注释将允许映射人类身体各细胞类型的lncRNA表达,促进在健康和疾病中人类lncRNA图谱的发展,并能够随着新的lncRNA注释的出现而进行整合。

AI理解论文

图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览
图片加载中
预览

该文档主要探讨了**长链非编码RNA(lncRNA)**在单细胞RNA测序(scRNA-seq)中的表达特征及其对基因注释和数据分析的影响。研究通过分析不同长度的lncRNA转录本的读数分布,揭示了这些转录本在5’端的富集现象,并探讨了这种现象的潜在原因和影响。

首先,研究发现lncRNA转录本的长度与其基因长度之间的相关性较弱,这与蛋白质编码基因不同。这一发现表明,lncRNA基因可能产生长度更为多样的转录本,尤其是短的异构体可能导致在5’端读数比例的增加。研究通过分析不同长度的lncRNA转录本,发现长度在1000至10000核苷酸之间的转录本在5’端的读数富集现象尤为明显。

为了验证这种5’端富集现象,研究对外周血单个核细胞(PBMCs)肝脏样本进行了详细分析。研究通过筛选和过滤那些在5’端表现出显著读数富集的lncRNA转录本,最终在PBMCs中筛选出2445个lncRNA基因,在两个肝脏样本中分别筛选出3065和4486个lncRNA基因。研究进一步指出,如果一个lncRNA基因的所有转录本都表现出5’端富集现象,则该基因会被丢弃,以避免数据分析中的偏差。

此外,研究还评估了读数在lncRNA转录本上的分布,以识别潜在的文库构建伪影或映射异常。研究标记了那些读数集中在转录本某一特定区域的lncRNA转录本,尤其是当该区域不在转录本的3’端时。通过这种方法,研究在PBMCs中标记了606个lncRNA基因,在两个肝脏样本中分别标记了644和1084个lncRNA基因。

研究的一个重要贡献是开发了Singletrome工作流程,该流程整合了来自GENCODE和LncExpDB的蛋白质编码基因和lncRNA基因注释。通过删除与蛋白质编码基因重叠的lncRNA基因,研究创建了一个未修剪的lncRNA基因组注释(ULGA),以提高单细胞分析的准确性。

最后,研究通过在肝脏样本中进行单细胞数据分析,验证了lncRNA在预测细胞类型和簇中的重要性。结果表明,仅使用lncRNA的注释就能有效预测大多数细胞类型和簇,这突显了lncRNA在单细胞分析中的潜力。

总之,该研究通过详细分析lncRNA转录本的读数分布,揭示了其在5’端的富集现象,并开发了新的注释方法以提高单细胞RNA测序分析的准确性。这些发现不仅丰富了对lncRNA表达特征的理解,也为未来的基因组注释和单细胞分析提供了新的工具和方法。

Chat Paper

当前问答基于全文

转入私有库对话