GenBank数据格式以酿酒酵母TCP1基因、部分编码区为例:
关键字表
关键词说明LOCUS【标记(简要说明)】:名称、长度、分子类型、数据分类(见下文)、最终修订时间DEFINITION【定义】:物种/基因/蛋白质名称、 码域or非码域全排列or部分排列ACCESSION【搜索号】VERSION【版本号】DBLINK【相关资源链接】KEYWORDS【关键词】:新记录基本为“”.“SOURCE【种子】 —AUTHORS【作者】(qquad(quad ) title【主题:直接提交,未发表) ) qquad )QQ uad ) journal【日志】) quad qquad —REMARK【注释】COMMENT【注释】FEATURES【系列特征表】:特性关键词(参照下午)、特性位置)开始…结束)、限定词)
LOCUS中的数据分类: PRI 灵长类
ROD 啮齿动物
LNV 无脊椎动物
PLN 植物
卡介苗细菌
VRT 病毒
PHG 抗生素
SYN 合成产物
EST 表现系列标签
PAT 专利号
STS 顺序标记部位
GSS 基因组测序
HTG 高通量基因组
HTC 高通量cDNA
ENV 环境样本
MAN 其他哺乳类
VRT 其他脊椎动物
UNA 无评论
FEATURES的主要关键词: attenuator 与转录结束相关的序列
C_region C-免疫特征区
CAAT_signal真核启动子上游的CAAT框
CDS 蛋白质字码序列
confict 不同研究中相同序列的差异
D_loop 线粒体中DNA中的取代环
D_segmentD-免疫区域
增强器增强器
exon 埃克森
gene 基因区域
GC_signal 真核启动子的GC盒
iDNA 通过重组去除的DNA
内含子内含子
J_segment J-免疫特征区
N_region N-免疫区域特征区
V_region V-免疫特征区
S_region 免疫球蛋白重链开关区
LTR 长末端重复序列
mat_peptide 编码成熟肽序列
misc_binding 无法描述的核酸序列结合位点
misc_difference 序列属性无法用属性表关键字描述的序列
misc_feature 生物学特性不能用特性表关键词描述的数组
无法用misc_recomb 重组特性关键词记述的序列
不能用misc_RNARNA特性关键词记述的转录物或RNA产物
misc_signal 不能用信号关键字记述的信号序列
misc_structure 不能用结构关键字记述的高级结构或结构
modified_base 修饰的核苷酸
mRNA 信使RNA
RNA核糖体RNA
scRNA 小细胞质RNA
snRNA 小核RNA
trna转运RNA
old_sequence 此序列将修订以前的版本
ployA_signal RNA转录本剪切点
ployA_site RNA转录本的多腺苷氧化位点
precursor_RNA 前体RNA
prim—transcript 初始转录本
primer PCR引物
primer_bind 引物结合位点
参数转印开始区域
protein_bind 蛋白质结合区
RBS 核糖体结合位点
rep_origin 双链DNA复制开始区域
repeat_region 重复序列
repeat_unit 单一重复原始
Satellite 卫星重复排列
sig_peptide 编码信号肽序列
source 物种由来
stem_loop 发夹结构
STS 测序的标签部位
TATA_signal 真核启动子的TATA框
终端转录终止序列
transit_peptide 转运蛋白编码序列
传输转座子
unsure 序列无法确定区域
variation 包含稳定突变的序列
-10_signal 原核启动子百里香箱
-35_signal 原核启动子的-35框
3’clip前提转录本被剪切的3’末端序列
3’UTP3’非翻译区
5’clip前体转录本被剪切的5’末端序列
5’UTP5’非翻译区