首页 > 编程知识 正文

序列比对算法,基基因组序列比对

时间:2023-05-04 02:34:15 阅读:179039 作者:1787

转录组初探(5)序列比对

任务列表

比对软件

hisat2的使用方法

下载索引文件

归类、排序和索引

质量管理

加载IGV,截图几种基因

hisat2的使用方法

因为这项工作是与基因组的比对,所以使用gapped or splices mapper更新了这个过程。 TopHat首次发表是在7年前,STAR的比对速度是TopHat的50倍,HISAT是STAR的1.2倍。 HISAT2是TopHat2/Bowti2的继承人,使用改进的BWT算法实现了更快更少的资源消耗。 作者建议将TopHat2/Bowti2和HISAT用户转换为HISAT2。

官方网站: https://CCB.jhu.edu/software/hisa T2/index.shtml (学习软件的最好方法是组合现有的中文资料,阅读官方说明书和HELP文档。 一般来说,刚开始学习的时候,首先要使用默认参数,不要随便调整参数)。

下载索引文件

1

2

3

4

5

6

cd ~/reference

mkdir-pindex/hisatcdindex/hisat

wget-cftp ://FTP.CCB.jhu.edu/pub/INF Philo/hisa T2/data/hg19.tar.gz

wget-cftp ://FTP.CCB.jhu.edu/pub/INF Philo/hisa T2/data/mm10.tar.gz

tar zxvf hg19.tar.gz

tar xvzf mm10.tar.gz

-c :重新分发断点

归类、排序和索引

对照fastq格式的自述得到sam文件,然后用samtools将其转换为bam文件,用排序(注意n和p两种排序的区别)索引)管道实现,省去中间sam保存的过程,直接bam

创建bash脚本: map.sh

1

2

3

4

5

6

7

8

9

10

11

12

#! usr/bin/bash

set -u

set -e

set -o pipefail

hg19 _ ref=/mnt/hgfs/2017/reference/index/hisat/hg19/genome

M10 _ ref=/mnt/hgfs/2017/reference/index/hisat/mm10/genome

data _ path=/mnt/hgfs/2017/RNA _ seq/data

NUM_THREADS=25

ls-- color=never homo1. fastq.gz|whilereadid; do ()/biosoft/hisa T2-2.1.0/hisa T2-t-p $ num _ threads-x $ hg19 _ ref-1 datapath/data _ path/data 唐

ls-- color=never mus1. fastq.gz|whilereadid; do ()/biosoft/hisa T2-2.1.0/hisa T2-t-p $ num _ threads-x $ mm10 _ ref-1 datapath/data _ path/data 唐

ls-- color=never.bam|whilereadid; samtoolssort---- threads $ num _ threads $ id-o $ { id %.} _ sorted.bam ); 唐

ls-- color=never * _ sorted.bam|whilereadid; do(samtoolsindex$id ); 唐

执行脚本:

1

bash map.sh

质量管理

bam文件的简单QC

读对照后的质量管理(评价对照质量的指标)

比对上的读我占总读我的百分比

Reads比较外显子和参考链上的覆盖度是否一致

与基因组序列比对、与reads多重比对;

质量管理软件除了Picard、RSeQC、Qualimap之外还有很多

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。