首页 > 编程知识 正文

HiC-Pro的使用 | HiC辅助基因组组装(一)

时间:2023-05-06 19:42:17 阅读:220917 作者:4260

定义

之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下
在这里不做赘述。

软件安装 新版本

建议使用目前最新的3.0.0版本(需要root权限)
安装方法如下:

# 创建conda环境conda create -y -n hic-pro python=3.7 pysam bx-python numpy scipy samtools bowtie2 iced# 下载HiC-Pro最新版本wget https://hub.fastgit.org/nservant/HiC-Pro/archive/refs/tags/v3.0.0.tar.gztar zxf v3.0.0.tar.gzcd HiC-Pro-3.0.0/# 需要root权限sudo make install 旧版本

如果新版本不适应可以使用旧版本

conda install -c davebx hicpro

其他安装方法参考官方

软件操作流程 数据准备

将Hi-C数据放入对应以样品名命名的目录下。
(注意文件夹名、_R1.fastq.gz._R2.fastq.gz)

基因组组装结果文件
ln -s PATH=your_assembly.fasta genome.fa

必备文件1-基因组bowtie2索引 bowtie2-build genome.fa genome 酶切片段文件 /home/lixingze/software/HiC-Pro-3.0.0/ssdxj/utils/digest_genome.py genome.fa -r dpnii -o genome_dpnii.bed 基因组中序列大小文件 samtools faidx genome.faawk '{print $1"t" $2}' genome.fa.fai >genome.sizes 运行hic-pro HiC-Pro -c config-hicpro.txt -o analysis -i data config-hicpro.txt 配置

其中没有提到的建议使用默认数据操作

## SYSTEM AND SCHEDULER - Start Editing Here !!N_CPU = 50 #CPU线程数LOGFILE = hicpro.log #log文件名JOB_NAME = sample #任务名JOB_MEM = 100gb #占用内存JOB_WALLTIME = JOB_QUEUE = JOB_MAIL = PAIR1_EXT = _R1PAIR2_EXT = _R2BOWTIE2_IDX_PATH = /home/lixingze/XHS-Analysis/HiC-Pro/reads #比对的reads文件目录BOWTIE2_GLOBAL_OPTIONS = --very-sensitive -L 30 --score-min L,-0.6,-0.2 --end-to-end --reorderBOWTIE2_LOCAL_OPTIONS = --very-sensitive -L 20 --score-min L,-0.6,-0.2 --end-to-end --reorderGENOME_SIZE = /home/lixingze/XHS-Analysis/HiC-Pro/reads/genome.sizes #genome.sizes的绝对路径## Digestion Hi-CGENOME_FRAGMENT = /home/lixingze/XHS-Analysis/HiC-Pro/reads/genome_dpnii.bed #绝对路径LIGATION_SITE = GATCGATC #限制性内切酶,具体用的什么酶可以咨询测序公司,我这里用的dnp IIMIN_FRAG_SIZE = 100MAX_FRAG_SIZE = 100000MIN_INSERT_SIZE = 100MAX_INSERT_SIZE = 1000## Contact MapsBIN_SIZE = 20000 40000 150000 500000 1000000 #根据自身需求设置 ssdxj sizeMATRIX_FORMAT = upper 结果 hic_result/matrix目录

data:存放validpair及其他无效数据文件matrix:存放不同分辨率矩阵文件,
分为raw和iced文件,raw:原始矩阵iced:ice校正后的矩阵后续分析使用,
可以使用HiCPlotter、HiCExplorer出图,或者进行三维基因组学中的部分分析。

pic:存放统计结果图片

stats:存放统计表

hic_result/data目录

allVaildPairs:合并后的valid pairs数据
DEPairs: Dangling end pairs数据
DumpPairs:实际片段长度和理论片段长度不同的数据REPairs:酶切片段重新连接的pairs
FiltPairs:基于min/max insert/fragment size过滤的pairsSCPairs:片段自连的pairs

hic_result/pic目录

plotHiCContactRanges_Example1.pdf有效互作中各类型比例图

plotHiCFragmentSize_Example1.pdf有效互作的片段大小分布图

plotMappingPairing_Example1.pd合并后双端比对过滤结果图

plotHiCFragment_Example1.pdf有效数据过滤结果图

plotMapping_Example1.pdf单端比对过滤结果图

HiC-Pro易报错的地方总结 错误一 Exit: Error: Directory Hierarchy of rawdata '/home/lixingze/data/HiC/hicpro/data' is not correct. No '.fastq(.gz)' files detected

整理reads目录结构
注意:这里在HiCPro的源码中只会读入指定目录的子目录的文件 ,所以将hic测序数据放在子目录下即可

错误二 Pairing of R1 and R2 tags ...Logs: logs/fastq/mergeSAM.logmake: *** [/home/lixingze/software/HiC-Pro-3.0.0/ssdxj/../scripts//Makefile:144: bowtie_pairing] Error 1

原因可能是之前的bowtie2索引数据有问题造成的,重新跑一次。

总结

不同的报错内容很大程度是个人和环境的原因,所以因人而异,不具有普适性

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。