序列比对算法,基基因组序列比对

转录组初探(5)序列比对

任务列表

比对软件

hisat2的使用方法

下载索引文件

归类、排序和索引

质量管理

加载IGV，截图几种基因

hisat2的使用方法

因为这项工作是与基因组的比对，所以使用gapped or splices mapper更新了这个过程。 TopHat首次发表是在7年前，STAR的比对速度是TopHat的50倍，HISAT是STAR的1.2倍。 HISAT2是TopHat2/Bowti2的继承人，使用改进的BWT算法实现了更快更少的资源消耗。作者建议将TopHat2/Bowti2和HISAT用户转换为HISAT2。

官方网站： https://CCB.jhu.edu/software/hisa T2/index.shtml (学习软件的最好方法是组合现有的中文资料，阅读官方说明书和HELP文档。一般来说，刚开始学习的时候，首先要使用默认参数，不要随便调整参数)。

下载索引文件

cd ~/reference

mkdir-pindex/hisatcdindex/hisat

wget-cftp ://FTP.CCB.jhu.edu/pub/INF Philo/hisa T2/data/hg19.tar.gz

wget-cftp ://FTP.CCB.jhu.edu/pub/INF Philo/hisa T2/data/mm10.tar.gz

tar zxvf hg19.tar.gz

tar xvzf mm10.tar.gz

-c :重新分发断点

归类、排序和索引

对照fastq格式的自述得到sam文件，然后用samtools将其转换为bam文件，用排序(注意n和p两种排序的区别)索引)管道实现，省去中间sam保存的过程，直接bam

创建bash脚本： map.sh

#！ usr/bin/bash

set -u

set -e

set -o pipefail

hg19 _ ref=/mnt/hgfs/2017/reference/index/hisat/hg19/genome

M10 _ ref=/mnt/hgfs/2017/reference/index/hisat/mm10/genome

data _ path=/mnt/hgfs/2017/RNA _ seq/data

NUM_THREADS=25

ls-- color=never homo1. fastq.gz|whilereadid； do ()/biosoft/hisa T2-2.1.0/hisa T2-t-p $ num _ threads-x $ hg19 _ ref-1 datapath/data _ path/data 唐

ls-- color=never mus1. fastq.gz|whilereadid； do ()/biosoft/hisa T2-2.1.0/hisa T2-t-p $ num _ threads-x $ mm10 _ ref-1 datapath/data _ path/data 唐

ls-- color=never.bam|whilereadid； samtoolssort---- threads $ num _ threads $ id-o $ { id %.} _ sorted.bam )；唐

ls-- color=never * _ sorted.bam|whilereadid； do(samtoolsindex$id )；唐

执行脚本：

bash map.sh

质量管理

bam文件的简单QC

读对照后的质量管理(评价对照质量的指标)

比对上的读我占总读我的百分比

Reads比较外显子和参考链上的覆盖度是否一致

与基因组序列比对、与reads多重比对；

质量管理软件除了Picard、RSeQC、Qualimap之外还有很多