GATK_time_compare


  事情的起因主要是群里有老哥说INTEL的CPU(有avx512指令集)在用GATK call SNP的时候比AMD(EPYC3代 没有avx512指令集)快8-15倍,直接把我震惊到了。买INTEL,赢在起跑线.jpg
  我们现在来测试下

1.工具下载

mkdir Softwares && cd Softwares
# sra-tools 89.20M 
# 我们服务器是centos系统,自己下载自己服务器对应的版本
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.1.1/sratoolkit.3.1.1-centos_linux64.tar.gz
tar -zxvf sratoolkit.3.1.1-centos_linux64.tar.gz

# bwa-mem2
curl -L https://github.com/bwa-mem2/bwa-mem2/releases/download/v2.2.1/bwa-mem2-2.2.1_x64-linux.tar.bz2 \
  | tar jxf -

# 

2.原始数据下载

# 下载参考基因组文件
# https://doi.org/10.1126/science.adq8191 数据来源
mkdir Reference && cd Reference
wget https://github.com/yulab-ql/mhaESC_genome/releases/download/upd_rmvector/mouse.241018.v1.1.0.combined.fasta.gz
wget https://github.com/yulab-ql/mhaESC_genome/releases/download/upd_rmvector/mhaESC.annotation.v1.1.0.20241018.gff3.gz

# 下载原始测序文件
cd ..
mdkir 00.raw_data && cd 00.raw_data
# 94GB 
../Softwares/sratoolkit.3.1.1-centos_linux64/bin/prefetch SRR28702443 -O ./ --max-size 1000G
../Softwares/sratoolkit.3.1.1-centos_linux64/bin/fastq-dump --gzip --split-files SRR28702443/SRR28702443.sra

# 原始文件太大了,截取一部分来做测试
seqkit sample -n 10000000 00.raw_data/SRR28702443_1.fastq.gz | seqkit seq -ni > selected_ids.txt
# 过滤 input_1.fastq
seqkit grep -f selected_ids.txt input_1.fastq -o output_1.fastq
# 过滤 input_2.fastq
seqkit grep -f selected_ids.txt input_2.fastq -o output_2.fastq

3.数据前处理

bwa-mem2-2.2.1_x64-linux/bwa-mem2 index ref.fa
bwa-mem2-2.2.1_x64-linux/bwa-mem2 mem ref.fa read1.fq read2.fq > out.sam

文章作者: zhangchaofan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zhangchaofan !
评论
  目录