首页 > 编程知识 正文

肿瘤有关的数据库(clinvar数据库)

时间:2023-05-04 14:56:05 阅读:78349 作者:1923

上一次我们讨论了如何下载TCGA数据库的肿瘤数据,正如上一节所述,让我们来解读一下这些数据。

了解数据格式

我们一共下载了616个肾透明细胞癌相关的file。 下载的miRNA表达量均为样本文件夹,格式如下:

打开上面的文件夹之一看看数据的格式。 里面有一个. txt文档

但是,一些文件夹包含三个文档。 logs,两个. txt文档。 只需要每个文件夹下名称非常长的. txt文档。 这包括每个样品的miRNA表达量数据。

打开长文档查看数据格式,顺序为:

miRNA_ID:miRBase v21数据库中包含的miRNA名称,1881个; read _ count :用于表征mirna的原始reads数、定量; reads_per_million_miRNA_mapped :每百万reads来自此miRNA的reads数,简称RPM; cross-mapped:miRNA是否匹配多个位置;

至此,肾透明细胞癌患者miRNA表达数据下载完成。

了解

整理数据

数据的格式后,还需要对这些独立的文件夹做一件事。 也就是说,将他们组织成表达矩阵的格式,用于以后的分析。 这主要需要处理以下TCGA数据:

1、合并多个样本表示值:也就是说,合并每个文件夹下的文本列(read_count列)即可。 2、对于合并后的数据,需要将样本名称替换为TCGA-ID等格式。 例如TCGA-B2-5633-01A-01R-A27D-13。 (关于TCGA命名约定(3359 blog.csdn.net/QQ _ 35203425/article/details/80851862 )现在的问题是,什么文件需要我们的示例文档名(file 此数据实际上也位于ArrayExpress数据库中。 此数据库的数据存储结构在` ExpressionSet '类中包含以下部分:

AE库中的元数据还包括两种类型的数据phenoData和featureData。 实际上,它存储了示例数据的描述信息,包括分组、示例位置、示例名称和注释信息。

在中,从TCGA库下载的元数据也存储了类似于AE库示例的信息等。

看看从TCGA库中下载的元数据是怎么回事。 这是我下载的数据文件夹,里面有元数据。

metadata说,它是一个以. json为后缀的类似文本的文件,刚才每个示例都在数据库中描述信息等。

打开此文件:

1、我在notepad上打开的文件如下。 分号前面是每个属性,分号后面是属性值。 例如,' data _ type ' : ' mirnaexpressionquantification '表示下载了mirna表示数据。

2、我一共下载了616个文件的miRNA表达数据的信息。 所有这些描述信息都记录在元数据文件中。 我们需要知道样品和样品之间是如何识别的。 在上面的照片中,用蓝色的方块包围着。 两个背对着的大括号“,”表示两个样本之间的标识符。

3、找到与元数据属性值对应的示例文件夹。

根据这两个属性值,与元数据数据对应的TCGA样本名称' entity_submitter_id ' )是' TCGA-B8-5549-01A-01R-1540-13 '

616个file分别有对应的TCGA样本名,可以通过批量操作提取。

现在下载数据,解读元数据的数据关系。 下期我们会解决文章提出的两个问题。

整合各样品miRNA表达量; 样品名称也变更; 也就是说,提取每个样本的原始read_count值或RPM值,然后重命名样本。 合并后的最终格式如下。 (部分数据、TCGA样本名称太长,没有全部显示。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。