分子对接教程 2 选择合适的蛋白受体,discoverystudio蛋白小分子对接

TCGA | GEO | 文献阅读 | 数据库 | 理论知识

R语言 | Bioconductor | 服务器与Linux

接前文：分子对接教程 | (1) 软件安装准备

关于蛋白质结构的PDB文件，做分子对接，估计大家都知道PDB这个蛋白质数据库啦。这里简单的介绍一下。

蛋白质的三级结构是指整条多肽链的三维空间结构，也就是包括碳骨架和侧链在内的所有原子的空间排列。第一个蛋白质的三维空间结构于 1958 年用 X-射线衍射法（X-ray Crystallography）测定。这种方法目前仍然是获取蛋白质三级结构的主要方法。PDB 数据库中绝大多数蛋白质结构都是用这种方法测定的。另一个测定蛋白质三维空间结构的方法是核磁共振法（Nuclear Magnetic Resonance, NMR）。无法结晶的蛋白质，可以利用核磁共振法在液体环境中进行结构测定。但是核磁共振法只能用于质量小于 70 千道尔顿的分子，大约对应 200 个氨基酸的长度。除此之外，还有一些不太常用的方法也可以测定分子的三维空间结构，比如冷冻电子显微镜技术（Cyro-Electron Microscopy）。无论用什么方法测定的空间结构，都要提交到 PDB 数据库。所以我们获取蛋白质三级结构最直接的办法就是去PDB 搜索（http://www.rcsb.org/）。

从PDB首页的搜索条里，可以通过搜索PDB ID、分子名称、作者姓名等关键词来查找蛋白质三级结构。此外，利用高级搜索工具，可以通过序列相似性搜索获得与输入序列在序列水平上相似的蛋白质的三级结构。搜索方法选 BLAST，输入序列，点击“Result Count”。这里不详细介绍，因为我们做分子对接，通常蛋白名称是已知的。我们重点介绍怎么选择合适的蛋白结构文件。

比如我们搜索PI3K这个蛋白，结果是有很多的。可以看到有393个结构信息。

首先我们可以通过左边的栏进行筛选，比如物种信息，我们选择人。当然，结果的显示排序可通过结果上面的选项卡进行选择不同的排序方式。我们筛选合适的蛋白结构，常用Score这个选项。

我们选择分辨率较好的在前。这里的0.9Å，Å是光波长度和分子直径的常用计量单位，值越小，分辨率越高，结构越准确。页面往下拉，可以看见这个值越来越大，我们优先选择值小的。我们可以从页面里面看见一下基本信息，比如方法，物种以及被解析的时间等。这里5GJI这个结构获取的方法就是X-RAY。

我们点击这个蛋白，进入后可以看见详细的信息。

然后我们还要看这个蛋白的描述是不是我们想要的蛋白，从这里面感觉看起来比较费劲。这里我们借助uniprot这个数据库来选择是比较方便的。这里简单介绍一下这个数据库，可能有的同学是第一次知道。翻了多年前的笔记，粘贴在下面。

UniProt 数据库有三个层次。

第一层叫 UniParc，收录了所有 UniProt 数据库子库中的蛋白质序列，量大，粗糙。

第二层是 UniRef，他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。

第三层是 UniProtKB，他有详细注释并与其他数据库有链接，分为 UniProtKB 下的 Swiss-Prot和 UniProtKB 下的 TrEMBL 数据库。

关系稍有点复杂，但实际上我们最常用的就是 UniProtKB下的 Swiss-Prot 数据库。

从 UniProt 数据库查看一条蛋白质序列（http://www.uniprot.org/）。在UniProt数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到，TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot 中的。统计表里清楚的写着：TrEMBL 是自动注释的，没有经过检查，而 Swiss-Prot 是人工注释的，并且经过检查。

UniProt 数据库的首页上也有一个搜索条，选择UniprotKB 数据库，然后输入“human dutpase”，第一条就是我们要的。Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号，Entry_Name 是检索名，检索号与检索名平行运行，都是一条序列在数据库中的唯一标识，两者作用相同，只是写法不同。从检索名可以更直观的知道是哪个物种的什么蛋白质。从加星文档图标（Entry_Name后一列）我们可以获知序列是被人工检查过的还是没有。也就是说，有加星文档图标的是 Swiss-Prot 中的数据，没有的是 TrEMBL 里的。后面这几列，依次是蛋白质的名字，编码这一蛋白质的基因的名字，所属物种以及序列长度。点击第一条序列的检索号，打开这条数据库记录。

UniProtKB 中的数据库记录分成几个部分，左侧是注释标签，点击其中某一个标签可以直接跳转到该部分注释。上方是工具标签，可以用于和其他序列进行比较，格式转换，存储等。工具标签下方是这条蛋白质序列的基本信息，蛋白质的名字，基因的名字，所属物种，以及状态。这里有加星文档图标，是被人工检查过的，应该属于 Swiss-Prot 数据库。注释打分 5 星，说明注释得很全面，并且这些注释在蛋白质水平上有实验依据。

Function：功能这部分注释很详细的说明了这个蛋白质的功能。从这里可以得知dUTPase 是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代谢途径等。每条注释信息都提供出处来源，让你有据可查。

Names & Taxomomy：给出了蛋白质的各种名字，包括全称、缩写以及别名。还列出了所属物种以及该物种的分类学谱系等。

Subcellular location：提供蛋白质亚细胞定位（subcellular localization）的信息。目前，研究亚细胞定位的数据来源基本都是Swiss-Prot 数据库。

Pathology & Biotechnology：提供蛋白质突变或缺失导致的疾病及表型信息。

PTM/Processing：提供蛋白质翻译后修饰或翻译后加工的相关信息。

Expression：提供了基因在 mRNA 水平上的表达信息，或者在细胞中蛋白质水平上的表达信息，或者在不同器官组织中的表达信息。

Interaction：提供了蛋白质之间相互作用的信息。包括 UniProtKB 中直接与这个蛋白质有两两相互作用的蛋白质序列的链接，以及这个蛋白质在各种蛋白质相互作用数据库或蛋白质网络数据库中涉及的数据库记录链接。

Structure：提供蛋白质二级结构和三级结构信息。只有那些已通过实验方法测定三级结构并且已提交到蛋白质结构数据库 PDB 的蛋白质才有结构注释。二级结构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库 PDB 中涉及的数据库记录链接。这些结构经常只对应蛋白质的部分序列。

Family & Domains：提供蛋白质家族及结构域信息。

Sequence：提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。

Cross-references：列出了所有通往其他含有该蛋白质信息的数据库的链接。

Publications：列出了有关这个蛋白质已发表的所有文献的信息。

Entry information：提供有关这条数据库记录的录入信息，外加一个免责声明。

Miscellaneous：杂项，包含任何无法归入前几项的内容。

Similar Proteins：在 UniRef 数据库里找到与该蛋白质在序列水平上相似的其他蛋白质，并按相似度高低分组。

好了我们接着前面的介绍。我们在uniprot的搜索框中输入关键词，左侧选择相应的物种。

新页面下直接选择Structure。左边就是显示结果，有一个列表给我们快速查看相关参数。可以根据这些参数选择合适的结构，注意positions这一栏，我们首先选择resolution小的，但结构不是我们要的，就不行，resolution这一栏只是该结构只是该蛋白的序列区段，比如这里1-143这一段氨基酸序列是不在该结构中的。我们需要根据一些文献知识，了解一般配体所在的部位即相关活性位点。有没有已知的结合区域来参考选择，我个人认为，如果不知道，越长的越好。有的还是多条肽链的复合物，如果是二聚体的，后面对接可以删除一个。总之，需要先了解这些所解析的晶体结构是否已经包含了拟对接分子的潜在结合位点，已知的配体和我们要对接的分子结构相似度。越相似越好，还需注意晶体结构中蛋白序列是否为野生型、是否含有PTM、是否存在有可能引起构象变化的特殊有机溶剂和别构效应分子等。如果系列晶体结构的性质都类似，选择分辨率最高的。

点击链接栏中的PDB，就可以直接进入该结构的PDB页面了，然后点击下载文件就可以直接下载PDB格式的蛋白结构文件。下载的PDB文件可以用pymol或者VMD观察结构。能够实现蛋白质三维结构可视化的软件非常多。比专业级的PyMOL（https://pymol.org/2/）。这个软件已经被世界上著名的生物医药软件公司“薛定谔公司（Schrödinger）”收购。这种专业级的可视化软件不仅能够做出非常漂亮的图片，它还有强大的插件支持各种各样的蛋白质结构分析，这款软件需要购买，如果你发表的文章里提到某些内容是使用PyMOL制作的，而文章中所有作者和作者单位都没有PyMOL的购买记录的话，你可能会面临薛定谔公司的追责。

下面给大家介绍一个功能同样强大的免费蛋白质三维结构可视化软件，VMD（http://www.ks.uiuc.edu/Research/vmd）。VMD由伊利诺伊大学研发。下载 VMD 需要先注册获得一个账户，之后就可以根据你的操作系统和机器配置选择合适的版本下载了。当然，注册和下载对于非商业用途的用户都是免费的。VMD 的安装也极其简单。不需要预装任何语言环境，完全图形化安装过程，绝对可以轻松搞定。

最后，这些都是在蛋白结构已知的蛋白分子对接，如果我们要对接的蛋白，没有晶体结构，在PDB中是检索不到的，在UniProt 中的Structure是不会显示的。比如DRAM1这个蛋白，是没有结构的，所以在UniProt 中的Structure是灰色。

如果要对接的蛋白没有结构，我们又要对接，那就只能是自己通过软件预测了。蛋白质结构预测的方法有从头计算法，同源建模法，穿线法和综合法。常用的是同源建模法，SWISS-MODEL（www.swissmodel.expasy.org）就是一款用同源建模法预测蛋白质三级结构的全自动软件，这里不详细介绍了，预测的模型还要涉及模型好坏的评价，后续有时间，再介绍蛋白质三级结构的预测。

CSS中div滚动条样式如何设置