这里简单记录和备忘下下载和预处理 SRA 数据我常用的三个基本步骤。
依赖准备
conda install -c bioconda -c conda-forge parallel-fastq-dump 'sra-tools>=3.0.0' fastp
步骤
- 下载
prefetch -c --max-size 100GB -C yes -r yes -O . -p SRR8670672
- 转换数据格式为 FASTQ
parallel-fastq-dump -t 20 -O fq/ --split-3 --gzip -s SRR8670672
- 预处理 FASTQ 文件
fastp -i fq/SRR8670672_1.fastq.gz -I fq/SRR8670672_2.fastq.gz -o output/SRR8670672_1.fastq.gz -O output/SRR8670672_2.fastq.gz -h output/SRR8670672.html -j output/SRR8670672.json --thread 16 --dont_overwrite
如果多个文件还可以结合 multiqc
。