首页 > 编程知识 正文

rna-seq学习笔记(5)

时间:2023-05-05 08:36:15 阅读:188093 作者:923

说明:此文章因为从同事那里获取了响应文件,因此并未实际操作完成,为了帮助有需要的网友学习,故此把未完成的草稿发出来,提供一些自己的思路。

主要参考文章:
基因组各种版本对应关系
测试数据及参考基因组的准备
RNA-seq(4):下载参考基因组及基因注释
人类基因组hg19、hg38构建bwa索引

在网上查了两天怎么下载参考基因组的方法,写了一天多的记录方法,回头才搞明白:UCSC网站已经提供了现成的参考基因组序列的打包文件,参考基因组对于生信sxddp果然也是个坑啊,调整一下记录给大家参考,省得以后的无私的项链再入坑。

1. 下载参考基因组的原因

我们测序得到的是几百bp的短read(具体长短还有差异?需要进一步学习), 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。目前人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行,因此首先要去下载现成的基因组,用来做参考。

2. 不同基因组版本

人类基因组是测序后保存的序列信息,储存的是fasta序列。目前国际通用的人类参考基因组版本有三种,分别对应着三个国际生物信息学数据库资源收集存储单位,即NCBIUCSCENSEMBL各自发布的基因组信息。一些比较小众的参考基因组存储的序列不一样,比如BGI做的炎黄基因组、ngdxhd(Watson)的基因组、韩国人做的基因组等。ENSEMBL的版本特别复杂,很容易搞混,最新两版分别对应几个release;NCBI看起来很简单,就GRCh36,37,38,但据说水很深,很多版本的注释在更新,基因组序列一般不会更新,不了解具体情况;最简单的是UCSC的版本,常用的是hg19(2009年),最新的是hg38(2013年),自己选择的UCSC两个版本进行操作学习。不同单位发布的基因组各种版本对应关系为:

NCBI (UCSC): ENSEMBL GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75. GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82. 3. UCSC官网

官网进入下载页面的方法:UCSC>dowloads->Genome Data>Human
-Genome sequence files and select annotations (2bit, GTF, GC-content, etc): 基因组信息文件及各注释文件;
-Sequence data by chromosome:单个染色体序列信息;
-Annotations:注释文件。

因此对应的下载思路有两种:

-下载全基因组信息(chromFa.tar.gz)>解压缩(tar -zxvf)>重新写成单个全基因组序列(hg##.fa)
-下载单个染色体信息(ch*.fa.gz)>解压缩(tar -zxvf)>写成单个全基因组序列(hg##.fa)

This directory contains the Feb. 2009 GRCh37 assembly of the human genome,
in various formats and some related files. The UCSC release name is “hg19”.
This directory also includes versions of these files for a patch releases after
2009, “hg19.p13.plusMT”. The subdirectory “genes/” contains selected gene
transcript sets in GFF format.

Most users looking at this directory want to download the file latest/hg19.fa.gz
If you need a file for a genome aligner, like BWA, bowtie2 or hisat2 or similar,
please read the section “Analysis Set” below and look at the directory analysisSet/.

The main chromosome sequences of hg19.fa.gz are taken from and identical to the assembly
as released by NCBI, and called GRCh37 Genome Reference Consortium Human
Reference 37 (GCA_000001405.1).

An expanded version of hg19 is also available that includes new sequences
from GRC patch release GRCh37.p13 (GCA_000001405.14) plus the revised
Cambridge Reference Sequence (rCRS) mitochondrial sequence. See the section
“Patches” below.

GRCh37 was produced and is updated by the Genome Reference Consortium:
https://www.ncbi.nlm.nih.gov/grc

Hisat2官网上人类基因组索引的下载

xiaomotong@DESKTOP-H0I11L9:~$ mkdir test && cd test xiaomotong@DESKTOP-H0I11L9:~/test$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38.tar.gz--2020-05-29 16:02:23-- ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38.tar.gz => ‘grch38.tar.gz’Resolving ftp.ccb.jhu.edu (ftp.ccb.jhu.edu)... 128.220.174.63Connecting to ftp.ccb.jhu.edu (ftp.ccb.jhu.edu)|128.220.174.63|:21... connected.Logging in as anonymous ... Logged in!==> SYST ... done. ==> PWD ... done.==> TYPE I ... done. ==> CWD (1) /pub/infphilo/hisat2/data ... done.==> SIZE grch38.tar.gz ... 4210306865==> PASV ... done. ==> RETR grch38.tar.gz ... done.Length: 4210306865 (3.9G) (unauthoritative)grch38.tar.gz 17%[==============> ] 716.95M 1.48MB/s eta 23m 5s

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。