3D-DNA 挂载染色体

时间:2024-03-11 14:12:09

3D-DNA是一款简单,方便的处理Hi-C软件,可将contig提升到染色体水平。其githup网址:https://github.com/theaidenlab/3d-dna

 

3D-DNA流程简介

  • 将Hi-C数据比对到draft.genome.fa。(利用Juicer分析Hi-C数据)
  • 利用自动化流程进行纠错(misjoin),排序(order),确定正确方向(orient),最后scaffolding,得到染色体水平的组装结果(3D-DNA分析)
  • Juicebox 进行人工纠错

 

所需软件及安装

  • LastZ (version 1.03.73 released 20150708) – for diploid mode only
  • Java version >=1.8
  • Bash >=4
  • GNU Awk >=4.0.2
  • GNU coreutils sort >=8.11
  • Python >=2.7 - for chromosome number-aware splitter module only
  • scipy numpy matplotlib - for chromosome number-aware splitter module only
  • GUN Parallel >=20150322 (可选,建议装)
  • bwa
  • 两个核心软件 juicer 和3D-DNA

安装软件

 1 ## 安装juice
 2 git clone https://github.com/theaidenlab/juicer.git
 3 cd juicer
 4 ln -s CPU scripts
 5 cd scripts/common
 6 wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
 7 ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar
 8 
 9 ## 安装3D-DNA
10 git clone https://github.com/theaidenlab/3d-dna.git

 

 

大概流程

数据准备:

  • ref文件夹: 存放draft.genome.fa
  • fastq: 存放HI-C测序双端reads, 注意reads文件名的格式 保证*.R1.fastq, *.R2.fastq

 

++++++++++++++++++++++++正式开始+++++++++++++++++++++++++++++

一、 利用Juicer 分析HI-C数据

 

第一步:基因组建立索引

bwa index draft.genome.fa

 

 

第二步: 创建可能的酶切位点文件

1 python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa
2 
3 # 本次使用的是 HindIII 进行酶切;选择自己所有的酶

 

 

第三步:获取每条contig的长度

1 awk \'BEGIN{OFS="\t"}{print $1, $NF}\' draft.genome_HindIII.txt > draft.genome.chrom.sizes

 

 

第四步:运行juicer

注意:必须在当前目录存在fastq和ref文件夹, -z,-p,-y必须参数

 1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y ./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8
 2 
 3 
 4 
 5 ## 参数
 6 -g: 定义一个物种名
 7 -s:酶切类型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)
 8 -z : 参考基因组文件
 9 -y: 限制性酶切位点可能出现位置文件
10 -p: 染色体大小文件
11 -C: 将原来的文件进行拆分,必须是4的倍数,默认是90000000, 即22.5M reads
12 -S: 和任务重运行有关,从中途的某一步开始,"merge", "dedup", "final", "postproc""early"
13 -d: juicer的目录
14 -D: juicer scripts的目录
15 -t: 线程数

 

结果:结果文件在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

 

二、 运行3D-DNA

 

使用默认参数进行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt

最后输出文件中,包含FINAL就是我们需要的结果。

 

三、 juicerbox进行手动纠错

 

首先下载该软件:https://github.com/aidenlab/Juicebox/wiki/Download

一般组装错误为:

  • misjoin
  • translocations
  • inversions
  • chromosome boundaries

关于该软件用法,可看该视频:https://www.bilibili.com/video/av65134634

纠错完以后,会得到genome.review.assembly用于下一步的分析

 

四、 再次运行3D-DNA

 

1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt

 

 

 

 

欢迎大家讨论交流,若有问题,可添加一下公众号,后台留言即可

 

 

 

---END---