欢迎关注”生信修炼手册”!
从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。
1. Table BrowserTable Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下
http://genome.ucsc.edu/cgi-bin/hgTables
第一行的3个标签用于确定确定物种和版本。clade提供了物种分类,包括以下类型
Mammal 哺乳动物
Vertebrate 脊椎动物
Deuterostome 后口动物
Insect 昆虫
Nematode 线虫
Viruses 病毒
other 其他
从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade的类别,可以快速查找物种。genome选择对应的物种名字,assembly选择基因组版本。
group用于选择文件保存信息的类型,提供了以下类型
Mapping and Sequencing
Genes and Gene Predictions
Phenotype and Literature
mRNA and EST
Expression
Regulation
Comparative Genomics
Variation
Repeats
All Tracks
All Tables
GTF文件保存的是基因和转录本的结构信息,所以选择2,track选择对应的数据库和版本,通常选择NCBI RefSeq。
table选择数据,对于NCBI RefSeq, 提供了如下选择
RefSeq All
RefSeq Curated
RefSeq Predicted
UCSC RefSeq
RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM, NR, YP开头,RefSeq Predicted代表预测的数据,以XM, XR开头;UCSC RefSeq 代表所有以NM, NR开头的转录本信息。通常选择UCSC RefSeq即可。
region选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。
output format选择输出文件格式,常用的有以下两种
GTF(limited)
BED
output file指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned选择返回文件的格式,支持返回压缩文件。
通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下
chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。
2. FTPUCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9
UCSC RefSeq这种信息对应的文件为refGene.txt.gz, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。UCSC提供了许多的工具,下载链接如下
http://hgdownload.soe.ucsc.edu/admin/exe/
其中genePredToGtf就是把genepred格式转换为gtf格式的工具。使用方式如下
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gzgunzip refGene.txt.gzcut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref hg38.gtfrefGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred格式了。最终生成的文件如下
chr20 hg19_Ref exon 63865228 63865384 . + . gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!