首页 > 编程知识 正文

数据处理的基本流程,数据处理方式

时间:2023-05-05 06:57:42 阅读:53814 作者:1778

参考文献:

Armand EJ,Li J,Xie F,Luo C,mukamelea.http://www.Sina.com/http://www.Sina.com/. 2021 Jan 6; 109(1) 336011-26.doi :10.1016/j.neuron.2020.12.010.pmid :33412093;Single-Cell Sequencing of Brain Cell Transcriptomes and Epigenomes.PMC7808568。

Amezquita,R.A .Lun,A.T.L .Becht, e.et al.orchestrating single-cellanalysiswithbioconductor.NAT methods 3358 www.Sina.com/137145 (2020 ) https://DOD ODS

单细胞序列分析的数据集是高维矩阵。 因此,与一般的bulk测序相比,对处理算法和工具的要求更高。 到目前为止,bulk测序分析中使用的一些软件方法已经不适用于单细胞测序。 单细胞测序数据的特征还允许提取常规bulk测序无法获得的信息。 因此,也提出了发展单细胞测序技术的必要性。

本文结合自己对该技术的理解,梳理目前单细胞序列的一般流程及其结果。

接下来结合具体数据,进一步了解该操作流程的各个步骤。

一、质量控制、比对、定量(上游操作)

首先检查测序自述的质量(在fastqc中)。 对测序质量差的数据进行剔除处理。 这个质量差是指什么样的情况呢? 比如? )

然后将通过序列获得的reads与参考基因组匹配(在bowtie软件中)。 如果reads能匹配基因组,会匹配什么样的序列? (匹配后期待的结果是什么? 需要组装吗? 我好像在概念上和基因组组装的部分混淆了吗? )

在这个过程中有必要通过设定一定的阈值来去除低质量的细胞和reads。

可能存在的pitfalls (潜在风险) (1)库构建的低复杂性) RNA/DNA捕获效率低下、线粒体RNA高度污染、DNA甲基化分析中亚硫酸氢盐转化不完全。

这个步骤处理的是被列为细胞二维矩阵的行为基因。

二、降低特征选择和维度

简单来说,就是我对特征选择的理解。 我认为特征选择是从现有的特征空间中选择最有代表性的特征。 这种代表性如何解释才能清楚地区分两种样本的特征。 举个例子,能清楚区分大豆和黑豆的特征是什么? 颜色。

在得到的二维矩阵中,特征空间是合格表达的基因(非常多)。 而且特征之间的相关(基因表达之间的相关)会降低数据内在特征的数量。

特征提取和特征选择方法可以简化后续的数据分析。

主要步骤有: (1)低表达量、低变异特征去除。 )2)线性投影) PCA )上千个维度降至50~100个特征(具体数量可自行设定)。

三.减少数据稀疏性

单细胞序列分析得到的矩阵是比较稀疏的矩阵(即大多数基因的表达值为0 )。

33558 www.Sina.com/(data diffusion )预处理有助于对抗稀疏性,提高可视化和聚类分析的效果。

四.双峰(双峰)。

双峰(doublets )两个或多个细胞的数据错误地聚集在一起(存在的物理条件);被同一液滴捕获的细胞或多个细胞偶然使用相同的Neuron)。

虽然数据污染可以通过计算手段在一定程度上消除,但实际细胞类型数量不详,需要密切关注结果。

单细胞测序获得的细胞类型需要空间转录组等其他技术手段辅助证实。

五.可视化

有助于可视化,将细胞嵌入二维或三维空间,优化细胞布局,使相互之间的距离接近高维数据的距离。

但是,这种高维化的处理并不总是完美的,而是高维数据的扭曲和非独特特性的展示。 这个方法只能用于探索,但不能用于假说的验证和结论的得出。

六.离散聚类和连续潜在因子

对单细胞测序数据的最简单描述是不同分子标记的细胞群,如离散聚类或分层聚类。 然而,聚类分析本身并没有为生成的细胞类型提供统计可靠性和生物学真实性的证据。

大脑发育过程中出现连续的轨迹。 轨迹和疑似时间分析试图评价单细胞之间的连续关系。 有丝分裂后神经元的连续梯度可以反映椎板到皮质区域的空间分布或功能特性。 能够识别神经元群体中连续离散变异的方法是当前研究的核心。

七.多个数据集之间的计算集成

要弄清楚的一个概念:

batch effects:与我们实验中感兴趣的因素无关的其它变量对实验结果产生的影响。比如,执行实验的人员,执行实验的时间。

有一些参数法的方法以及非参数化的方法可用于尽可能的过滤批次效应。

一些参数化的方法,如Seurat包中的近似典型相关分析(CCA),无负矩阵分解(NMF),将细胞从多个数据集中投影到一个共有的,低维的空间中,然后可以被直接的比较,聚类和分析。

非参数化的方法,如共同近邻(MNN)也可以将不同数据集之间的细胞连接起来。不需要学习普通空间中的线性或者非线性的嵌入。

这些技术将一个数据集中的细胞与另一个数据集之间的细胞紧密的匹配起来。

关于批次效应的更多的具体的处理方法,参见链接:https://www.plob.org/article/22574.html#:~:text=Batch%20effects%20are%20sub-groups%20of%20measurements%20that%20have,two%20technicians%20were%20responsible%20for%20different%20subsets%20

八、集群检验

对于类群的统计学显著性或者再现性的分析帮助定义适当的群集分辨率,提供一种客观的标准,解决ddm(分散的趋势)与拉力(聚拢的趋势)之间的经典性矛盾。

严格的细胞类型可复制性测试使用从一个或多个数据集中学习到的细胞类型的转录组学特征来在一个独立的数据集中预测细胞的身份,提供量化匹配的统计分数。

表观基因组特征可以进一步验证细胞类型的差异,并有助于剖析它们的分子调控。

 

九、下游分析

识别细胞之间,样本之间或者不同的操作条件之间的差异表达基因。

但是不同的计算方法在预测差异表达之间有很大的不同。特异性适用于单细胞测序的计算方法不一定适用于bulk测序。

 

单细胞测序的工作流程

 

 

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。