首页 > 编程知识 正文

数据比对怎么做,清炖鲫鱼汤怎么做好喝

时间:2023-05-04 04:49:43 阅读:277400 作者:962

需要用到的软件 MAFFT:多重比对,conda下可以直接安装;也可以通过在线网站https://mafft.cbrc.jp/alignment/server/AliView:可视化比对结果,http://www.ormbunkar.se/aliview/BMGE:用于移除比对效果差的区域,conda下直接安装 MAFFT多重比对和Aliview的可视化

下面介绍command lind 和 online两种方法。

command mafft --auto seqence.fasta > sequence_aln.fasta--auto表示自动选择算法 online

在网站上选择上传你的fasta文件或者复制到选框中,其他选项暂时保持默认。点击最下方的submit。

结果

无论哪种方法,在选择--auto时,都会报告出多重比对使用的算法:

点击上方的‘Fasta format’进行下载。

补充

前面我们使用的是自动选择算法并保持参数默认。此时的空位罚分是1.53,软件会选择合适的算法,但是不能够自己修改参数,如果需要更好的比对效果,需要自己定义空位罚分,下面我们设定罚分为2。(如果图省事可以使用默认的参数)

mafft --auto --op 2 seq.fasta > seq_op2_aln.fasta

将两个比对结果用Aliview可视化结果如下:

op=1.53

op=2

从图上我们看到,比对长度不一致,当罚分增加时,gap会变少。这符合生物进化规律,基因突变的概率总是比从获得一段外源基因高。

Aliview纠正比对结果

图上可以看到 1020-1040 这一段比对结果并不理想,很明显不符合实际情况。

我们选择这一段区域,点击‘Align’ - ‘Realign selected block’

似乎规律了一些,但是我们分析时还是需要考虑这一段是否是我们分析所需要的,有没有必要剔除。

BMGE过滤修剪多重比对结果

多重比对对齐包含高变异和保守区域。因此,在基因的某些部分中,核苷酸的同源性很明显,但在其他部位中变异度非常高。为了避免在下游系统发育分析中对比对误差产生的问题,我们将基于gap的比例和这些区域内发现的遗传变异来识别不良的区域,我们将从比对结果中排除它们。

bmgen -i seq_aln.fasta -t DNA -of seq_filtered.fasta -oh seq_filtered.html

当我们增加gap的比例时,BMGE会选择更多的区域

bmgen -i seq_aln.fasta -t DNA -g 0.3 -of seq_filtered.fasta -oh seq_filtered.html

基于密码子的手动对齐

同样的,先经过MAFFT的多重比对。
接下来便交给Aliview
下图是核苷酸序列经过多重比对的结果

我们使用工具栏的第四个图标将核苷酸转换成氨基酸:

接着点击Sigma图表计算终止密码子数目,发现有三个终止密码子。
我们依次点击sigma旁边的按钮选择比对结果最好的一个。
接着,删除首尾区域,首位不对齐主要原因并不是因为生物分化巨大,而是由于数据缺失。
之后我们检查中间区段是否有大量gap存在,进行手工删除。
至此,我们便得到了较为准确的多重比对结果。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。