首页 > 编程知识 正文

应用ucsc查找基因序列,ucsc参考基因组

时间:2023-05-04 21:49:29 阅读:188097 作者:2094

欢迎关注”生信修炼手册”!

从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。

1. Table Browser

Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下

http://genome.ucsc.edu/cgi-bin/hgTables

第一行的3个标签用于确定确定物种和版本。clade提供了物种分类,包括以下类型

Mammal 哺乳动物

Vertebrate 脊椎动物

Deuterostome 后口动物

Insect 昆虫

Nematode 线虫

Viruses 病毒

other 其他

从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade的类别,可以快速查找物种。genome选择对应的物种名字,assembly选择基因组版本。

group用于选择文件保存信息的类型,提供了以下类型

Mapping and Sequencing

Genes and Gene Predictions

Phenotype and Literature

mRNA and EST

Expression

Regulation

Comparative Genomics

Variation

Repeats

All Tracks

All Tables

GTF文件保存的是基因和转录本的结构信息,所以选择2,track选择对应的数据库和版本,通常选择NCBI RefSeq。

table选择数据,对于NCBI RefSeq, 提供了如下选择

RefSeq All

RefSeq Curated

RefSeq Predicted

UCSC RefSeq

RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM, NR, YP开头,RefSeq Predicted代表预测的数据,以XM, XR开头;UCSC RefSeq 代表所有以NM, NR开头的转录本信息。通常选择UCSC RefSeq即可。

region选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。
output format选择输出文件格式,常用的有以下两种

GTF(limited)

BED

output file指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned选择返回文件的格式,支持返回压缩文件。

通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下

chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";

转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。

2. FTP

UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9

UCSC RefSeq这种信息对应的文件为refGene.txt.gz, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。UCSC提供了许多的工具,下载链接如下

http://hgdownload.soe.ucsc.edu/admin/exe/

其中genePredToGtf就是把genepred格式转换为gtf格式的工具。使用方式如下

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gzgunzip refGene.txt.gzcut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref  hg38.gtf

refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred格式了。最终生成的文件如下

chr20   hg19_Ref        exon    63865228        63865384        .       +       .       gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";

可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。