转录组初探(5)序列比对
任务列表
比对软件
hisat2的使用方法
下载索引文件
归类、排序和索引
质量管理
加载IGV,截图几种基因
hisat2的使用方法
因为这项工作是与基因组的比对,所以使用gapped or splices mapper更新了这个过程。 TopHat首次发表是在7年前,STAR的比对速度是TopHat的50倍,HISAT是STAR的1.2倍。 HISAT2是TopHat2/Bowti2的继承人,使用改进的BWT算法实现了更快更少的资源消耗。 作者建议将TopHat2/Bowti2和HISAT用户转换为HISAT2。
官方网站: https://CCB.jhu.edu/software/hisa T2/index.shtml (学习软件的最好方法是组合现有的中文资料,阅读官方说明书和HELP文档。 一般来说,刚开始学习的时候,首先要使用默认参数,不要随便调整参数)。
下载索引文件
1
2
3
4
5
6
cd ~/reference
mkdir-pindex/hisatcdindex/hisat
wget-cftp ://FTP.CCB.jhu.edu/pub/INF Philo/hisa T2/data/hg19.tar.gz
wget-cftp ://FTP.CCB.jhu.edu/pub/INF Philo/hisa T2/data/mm10.tar.gz
tar zxvf hg19.tar.gz
tar xvzf mm10.tar.gz
-c :重新分发断点
归类、排序和索引
对照fastq格式的自述得到sam文件,然后用samtools将其转换为bam文件,用排序(注意n和p两种排序的区别)索引)管道实现,省去中间sam保存的过程,直接bam
创建bash脚本: map.sh
1
2
3
4
5
6
7
8
9
10
11
12
#! usr/bin/bash
set -u
set -e
set -o pipefail
hg19 _ ref=/mnt/hgfs/2017/reference/index/hisat/hg19/genome
M10 _ ref=/mnt/hgfs/2017/reference/index/hisat/mm10/genome
data _ path=/mnt/hgfs/2017/RNA _ seq/data
NUM_THREADS=25
ls-- color=never homo1. fastq.gz|whilereadid; do ()/biosoft/hisa T2-2.1.0/hisa T2-t-p $ num _ threads-x $ hg19 _ ref-1 datapath/data _ path/data 唐
ls-- color=never mus1. fastq.gz|whilereadid; do ()/biosoft/hisa T2-2.1.0/hisa T2-t-p $ num _ threads-x $ mm10 _ ref-1 datapath/data _ path/data 唐
ls-- color=never.bam|whilereadid; samtoolssort---- threads $ num _ threads $ id-o $ { id %.} _ sorted.bam ); 唐
ls-- color=never * _ sorted.bam|whilereadid; do(samtoolsindex$id ); 唐
执行脚本:
1
bash map.sh
质量管理
bam文件的简单QC
读对照后的质量管理(评价对照质量的指标)
比对上的读我占总读我的百分比
Reads比较外显子和参考链上的覆盖度是否一致
与基因组序列比对、与reads多重比对;
质量管理软件除了Picard、RSeQC、Qualimap之外还有很多