Trinity的分步运行

时间:2023-11-23 13:40:20
  • 当使用Trinity组装时,如果数据量过大,可以考虑使用--min_kmer_cov 2参数丢弃uniquely occurring kmer, 从而降低内存消耗
  • 设置--no_distributed_trinity_exec会在输出目录下面(trinity_out_dir)生成一个recursive_trinity.cmds文件,这里面包含了下一步运行的所有命令,这些命令是可以并行执行的时候
  • 然后运行Trinity会自动识别已经完成部分,接着未完成的命令继续运行
    运行命令如下:
/home/yueyao/bio/trinityrnaseq-Trinity-v2.4.0/Trinity --seqType fq --max_memory 100G --CPU 50 --min_kmer_cov 3 --left   /home/yueyao/10.GongTong/00.data/FCHK2FVCCXY_L3_WHDAVllgEAAARAAPEI-96_1.fq.gz,/home/yueyao/10.GongTong/00.data/FCHK2FVCCXY_L3_WHDAVllgEAABRAAPEI-97_1.fq.gz,/home/yueyao/10.GongTong/00.data/FCHK2FVCCXY_L3_WHDAVllgEAABRAAPEI-97_1.fq.gz  --right /home/yueyao/10.GongTong/00.data/FCHK2FVCCXY_L3_WHDAVllgEAAARAAPEI-96_2.fq.gz,/home/yueyao/10.GongTong/00.data/FCHK2FVCCXY_L3_WHDAVllgEAABRAAPEI-97_2.fq.gz,/home/yueyao/10.GongTong/00.data/FCHK2FVCCXY_L3_WHDAVllgEAACRAAPEI-98_2.fq.gz --output gongtong_trinity_out  --group_pairs_distance 230 --no_version_check  --verbose --min_contig_length 250 --min_glue 3 --no_distributed_trinity_exec

/home/yueyao/bio/trinityrnaseq-Trinity-v2.4.0/trinity-plugins/parafly/bin/ParaFly -c recursive_trinity.cmds -CPU 50 -v

  • --trinity_complete 在递归运行Trinity时作为一个flag控制程序运行Butterfly
  • Butterfly 是一个通过德布鲁因图寻找正确的路径并得到相应的contig序列的jar包。对于一个德布鲁因图会根据reads的关系来进行拆分,同时对于多个可能的路径都会输出为contig
  • 拆分得到的contig可以认为是属于一个基因家族的转录本序列或者认为是旁系同源基因,而对于一条路径延伸时有多个选择得到的不同contig则认为是同一个基因的不同转录本
  • c1_g1_i1与c1_g1_i2属于同一个基因的不同转录本,c1_g1_i1与c1_g2_i1属于旁系同源基因 此结果的理解属于分类后的reads重新运行Trinity得到的Trinity.fasta文件,而最终的Trinity结果是对每一类的Trinity.fasta文件的合并