制作annovar注释依赖的cosmic数据库

时间:2021-07-16 02:49:05

1. 文件准备

COSMIC相关文件下载

COSMIC更新了下载规则。以前直接用ftp可以下载,现在麻烦一些,要根据它们提供的指导规则下载。
GRCh37/cosmic/v90/VCF/CosmicNonCodingVariants.vcf.gz的下载为例:

  • 获得授权字符
echo "[email protected]:mycosmicpassword" | base64
ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=
  • 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v90/VCF/CosmicNonCodingVariants.vcf.gz
  • 下载数据
    从上一步返回的JSON中提取下载链接并直接下载
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v90/VCF/CosmicNonCodingVariants.vcf.gz?AWSAccessKeyId=KFGH85D9KLWKC34GSl88&Expires=1521726406&Signature=Jf834Ck0%8GSkwd87S7xkvqkdfUV8=" > CosmicNonCodingVariants.vcf.gz

2. 数据处理

prepare_annovar_user.pl -dbtype cosmic CosmicMutantExport.tsv -vcf CosmicCodingMuts.vcf > hg19_cosmic90_coding.txt # 生成 Coding Variant 的注释文件
prepare_annovar_user.pl -dbtype cosmic CosmicNCV.tsv -vcf CosmicNonCodingVariants.vcf > hg19_cosmic90_noncoding.txt # 生成 Non Coding Variant 的注释文件

## 以下步骤也可以忽略
sort -k1 -V -s -t ' ' hg39_cosmic90_coding.txt > hg19_cosmic90_coding.sorted.txt #排序
mv hg19_cosmic90_coding.sorted.txt hg19_cosmic90_coding.txt
perl Annovar_index.pl hg19_cosmic90_coding.txt 1000 #生成index,但是如果注释文件很小,也可以不生成