首页 > 编程知识 正文

clustalw多序列比对,多序列比对在线工具

时间:2023-05-06 02:55:53 阅读:277419 作者:836

最近需要将蛋白质建模与虚拟筛选结合起来使用,要做的笔记可能会有点杂,有些可以拿来参考的。

一、多序列比对算法MAFFT

最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。这里粗略介绍MAFFT。EMBI-EBI中的MAFFT新版本7有几个特性,包括将未对齐的序列添加到现有的对齐中,调整核苷酸对齐的方向,约束对齐和并行处理,这些都是在之前的主要更新之后实现的。

选择MAFFT多序列比对算法可能原因(优势):
1.在某些情况下,重要的生物学信息被包含在低质量的序列中。在这种情况下,首先选择高可靠的序列构建一个主干MSA,然后将其他的序列,包括低质量的序列加入到MSA中。因此,低质量序列对最终MSA的质量影响较小。

MAFFT多序列比对算法的问题(劣势) :
其子程序对profile比对时的不恰当应用, 包括两类做法:

1)将一个已有的序列转换为一个轮廓线,2)对齐新的序列并将它们转换为一个轮廓线,3)对齐两个轮廓线。这一步骤不适用于添加新序列,因为它假定了一种系统发育关系.1)将现有的对齐转换为一个配置文件,2)将每个新序列分别对齐到现有对齐的配置文件,3)根据前一步计算的单个对齐构造一个完整的对齐。这种方法比第一个方法更合理但也有问题, 在加入新序列时, 新序列的系统发育位置假设有误(在发育树的根部).

因为这里没能完整看完文献,还有些信息没能做笔记,需要的伙伴可以下载文献看看:https://doi.org/10.1093/molbev/mst010

二、HMMER生成profile文件:

» 转载文章请注明,转载自: 博耘生物 » 《hmmer的安装与使用》
原文链接:http://boyun.sh.cn/bio/?p=1753

从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度以及更高的搜索速度,但其应用还远没有blast普及。

HMMER包含的程序:

phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;

phmmer tutorial/HBB HUMAN uniprot sprot.fa

jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;

jackhmmer tutorial/HBB HUMAN uniprot sprot.fa

hmmbuild: 用多重比对序列构建HMM模型;
hmmsearch: 使用HMM模型搜索序列库;
hmmscan: 使用序列搜索HMM库;
hmmalign: 使用HMM为线索,构建多重比对序列;

hmmalign globins4.hmm tutorial/globins45.fa

hmmconvert: 转换HMM格式
hmmemit: 从HMM模型中,得到一个模式序列;
hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;
hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;
hmmstat: 显示HMM数据库的统计信息;

使用HMM模型搜索序列数据库

使用hmmbuild构建HMM模型,输入为Stockholm格式或者FASTA格式的多重比对序列文件(如:tutorial/globins4.sto),命令如下:

hmmbuild globins4.hmm tutorial/globins4.sto

globins4.hmm为输出的HMM模型
使用hmmsearch搜索蛋白质序列数据库,蛋白质序列数据库为FASTA格式,命令如下:

hmmsearch globins4.hmm uniprot sprot.fasta > globins4.out

使用蛋白质序列搜索HMM数据库

构建HMM数据库,HMM数据库是包含多个HMM模型的文件,可以从Pfam、SMART、TIGRFams下载,也可以自己由多重比对序列集中构建,如:

hmmbuild globins4.hmm tutorial/globins4.sto
hmmbuild fn3.hmm tutorial/fn3.sto
hmmbuild Pkinase.hmm tutorial/Pkinase.sto
cat globins4.hmm fn3.hmm Pkinase.hmm > minifam

使用hmmpress格式化数据库,包括压缩以及创建索引,命令如下:

hmmpress minifam

这个步骤可以很快的执行完成,输出的内容如下:

Working… done.
Pressed and indexed 3 HMMs (3 names and 2 accessions).
Models pressed into binary file: minifam.h3m
SSI index for binary model file: minifam.h3i
Profiles (MSV part) pressed into: minifam.h3f
Profiles (remainder) pressed into: minifam.h3p

使用hmmscan搜索HMM数据库,命令如下:

hmmscan minifam tutorial/7LESS_DROME

输出文件如下

官方文档手册(pdf):ftp://selab.janelia.org/pub/software/hmmer3/3.0/Userguide.pdf

profile HMM文件的主要用法:

因为profile HMM可以作为序列族或序列域的表示,所以最常见的应用是比较profile HMMs和序列。与大多数数据库搜索程序中使用的序列与序列比较相比,这些类型的比较更有可能识别遥远的同源物。例如,可以使用HmmerPfam将序列与表示已知序列族和已知序列域的profile HMMs数据库进行比较。匹配这些profile HMMs可以帮助您识别序列并确定其功能。curated Pfam(“蛋白家族”)数据库包含了大量代表已知蛋白家族的全局profile HMMs,而PfamFrag数据库包含了这些相同家族的局部profile HMMs。同样, 您可以创建一个表示感兴趣的域或序列族的profile HMM文件,然后使用这个profile HMM文件作为查询来使用HmmerSearch搜索序列数据库,以查看是否有其他序列拥有这个域。profile HMMs的另一个用途是比使用标准方法更快地创建大量序列的多重对齐。HmmerAlign使用一个代表序列的小种子对齐来创建一个profile HMM,然后将该profile HMM用作对齐整个序列集的模板.

一般来说,在蛋白质建模过程中,profile文件(PSSM或者profile HMMs)只是在寻找模板这一步中发挥作用,那么如果确定了模板,也许不再用到profile文件了。如果您知道有别的用途,可留言评论。
接下来会继续做虚拟筛选相关内容。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。