首页 > 编程知识 正文

可变剪切有哪几种方式,可变剪切分析流程

时间:2023-05-03 18:16:07 阅读:275316 作者:1606

可变剪切的可视化软件ggsashimi用R和python来实现, python准备好数据, 利用R画图。简单好用,但也折腾了半天,现在把完成本次可视化的步骤详细的记录一下,必备以后用。

1. 准备可视化的基因注释文件,基因的注释文件是gtf格式,每个文件包含了这个基因的不同类型的可变剪切,可以从整个基因组注释文件中提取出来,但需要注意的是有时候注释文件中的染色体用,1,2,3等数字代替,而bam文件中的染色体是用 Chr1,Chr2等表示,切记要一致。代码如下:

#比如我要注释的基因是AT1G73660, 用转录本的正则来搜索grep -P "AT1G73660.d+" Arabidopsis_thaliana.TAIR10.46.gtf > AT1G73660.gtfawk -F"t" 'BEGIN{OFS="t"} $1="Chr"$1' AT1G73660_1.gtf > AT1G73660_new.gtf #转录本的染色体的编号要和基因组的一致,基因组是Chr1, 转录本也用Chr1,新找的到转录本每行前面加Chr

2. 准备bam文件,可将进行可视化的样品的BAM文件放到一个文件夹中,然后将每个bam的信息写到一个tsv(文本文件中),第一列是bam文件等编号,第二列是存放这些文件的地址,可以是相对路径也可以是绝对路径,第三列是每个bam文件等属性,比如是对照组还是处理组,那一种处理等信息。这一列主要用来对样品进行分类并且用不同的颜色表示。有几类就在下边的做图参数 -C COLOR_FACTOR 写几。下边是我整理的tsv文件的一个举例

bam1A0_Col_1.Psorted.bamA0_Colbam2A0_Col_2.Psorted.bamA0_Colbam3A200_Col_1.Psorted.bamA200_Colbam4A200_Col_2.Psorted.bamA200_Col

 

3.对样品进行画图,采用ggsashimi的脚本,需要画那几个可变剪切的外显子需要将region写出来,也可以画整个基因的所有外显子的可变剪切情况。代码如下:

## Example #1. Overlay, intron shrinkage, gene annotation, PDF output, custom size and colorssashimi-plot.py -b input_bam.tsv -c Chr1:27693102-27693738 -g AT1G73660_new.gtf -M 10 -C 3 -O 3 --shrink --alpha 0.25 --base-size=20 --ann-height=4 --height=3 --width=18 -P palette.txt -o AT1G73660_2## Example #2. Median coverage and number of reads supporting inclusion and exclusion, no gene annotation, TIFF output (350 PPI), custom size, default colorssashimi-plot.py -b input_bam.tsv -c Chr1:27693102-27693738 -M 10 -C 3 -O 3 -A median --alpha 1 -F tiff -R 350 --base-size=16 --height=3 --width=18

4. 效果如下:

5.如果要批量操作,比如很多基因,要在同样的几个bam文件中画,按照如下代码实现。

#准备一个包含基因,区域的文件,两列,第一列是基因名字,第二列是染色体位置,Chr1:start-end 格式 #准备基因组的GTF文件,从而提取每个基因的不同转录本#需要注意grep命令, 在Mac中是 -E, 而在Linux 中是-P。不知道是为什么。cut -f1 gene_region.txt | while read id; do grep -E $id\.\d+ Arabidopsis_thaliana.TAIR10.46.gtf | awk -F"t" 'BEGIN {OFS="t"} $1="Chr"$1' > $id.gtf; done #准备好每个基因的GTF文件就可以批量做图了cat gene_region.txt | while read gene region; do ~/ggsashimi/sashimi-plot.py -b input_bam.tsv -c $region -g $gene.gtf -M 10 -C 3 -O 3 --shrink --alpha 0.25 --base-size=20 --ann-height=4 --height=3 --width=18 -P palette.txt -o $gene; done

 

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。