通过 R 包获取数据库中的信息, 该数据库包括一下内容
以下内容参考网址1
1.查找某个基因在染色体上的位置。反之,给定染色体每一区间,返回该区间的基因;
2.通过EntrezGene的ID查找到相关序列的GO注释。反之,给定相关的GO注释,获取相关的EntrezGene的ID;
3.通过EntrezGene的ID查找到相关序列的上游100bp序列(可能包含启动子等调控元件);
4.查找人类染色体上每一段区域中已知的SNPs;
5.给定一组的序列ID,获得其中具体的序列;
Step.01 Install Package BiocManager::install("biomaRt")install.packages('curl') Step.02 Show Database library("biomaRt")library('curl')listMarts() Step.03 View Abstract my_mart=useMart('ensembl')dataset = listDatasets(my_mart)grep('mm',dataset[,1],value = T) Step.04 Choose species mart <- useMart("ensembl","hsapiens_gene_ensembl")##人类'hsapiens_gene_ensembl'##小鼠'mmusculus_gene_ensembl'Check input types
转换前的ID类型,如:
ENSG00000000003或ENMUSG000000003,属于类型为ensembl_gene_id;
ENST00000000233或ENMUST00000000233,属于类型为ensembl_transcript_id;
102178245,属于类型为entrezgene;
Hoxc13,属于类型为external_gene_name;
NM_000014,属于类型为refseq_mrna;
hsa-let-7a-1,属于类型为mirbase_id;
用listFilters()函数查看可选择的输入类型
Step.05 Use listAttributes check output types要想知道biomaRt支持哪些ID类型的输出,可以通过以下命令查看,共支持3607种ID输出,这里只截取了一部分输出,一共有name和description两列
listAttributes(mart) Step.06 getBM() hg_symbols<- getBM(attributes=c('ensembl_gene_id','hgnc_symbol',"chromosome_name", "start_position","end_position", "band"), filters= 'ensembl_gene_id', gene = my_ensembl_gene_id, mart = mart)这个函数有4个参数
attributers()里面的值为我们输出的ID类型
filters()里面的值为我们输入的ID类型
gene= 这个值就是我们要输入的数据
mart= 这个值是我们所选定的数据库的基因组
https://www.cnblogs.com/yanjiamin/p/12054879.html ↩︎