- Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合(SRA:Sequence Read Archive)
- 一般常用于下载SRA文件,从SRA文件中提取fastq,sam文件,查看SRA文件信息等
下载安装有两种方法:1通过Conda安装;2通过NCBI官网下载安装包安装。
sra工具集
prefetch 下载文件
[wangzq@server3 3.0.10]$ ./bin/prefetch
Usage:
prefetch [options] <SRA accession> [...]
Download SRA files and their dependencies
prefetch [options] --cart <kart file>
Download cart file
prefetch [options] <URL> --output-file <FILE>
Download URL to FILE
prefetch [options] <URL> [...] --output-directory <DIRECTORY>
Download URL or URL-s to DIRECTORY
prefetch [options] <SRA file> [...]
Check SRA file for missed dependencies and download them
#################################################################
prefetch SRR26717485 #下载一个文件
prefetch --option-file sraid.txt #下载多个文件
fastq-dump、fasterq-dump 文件转换
把下载的SRA文件格式转换成标准的fastq(fasta)文件格式。
./bin/fastq-dump --help #查看具体的参数
#其中输出文件有三种格式可选,这里着重介绍一下
#--split-spot、--split-files、--split-3
#--split-3将产生三个输出文件,分别是R1、R2端数据;还有一个文件存放的是R1、R2两端不匹配的reads。
#--split-files将产生两个输出文件,分别是R1、R2端数据;此参数将不考虑不匹配的reads。
#--split-spot将产生一个输出文件。拆分的R1、R2都放在一个文件中,生成一种 8 行的 fastq 格式,其中前向序列在前,反向序列在后。(这个我没有使用过)
#--gzip、--bzip2 指定输出文件直接压缩。但是最新版本里弃用的这个功能。
#--defline-qual、--defline-seq 这两个参数是用于指定输出的fastq文件的文本格式。
##一般--qual-defline使用 '+'即可;--defline-seq根据自己的需求设定,我一般设定为 @$ac-$si/$ri ($ac:样本名,$si:reads编号,$ri:reads端号)
./bin/fasterq-dump #查看具体的参数
#fasterq-dump和fastq-dump的功能完全一样
#fasterq-dump的优点是可以多线程进行分析,使用-e参数指定线程数。
#fasterq-dump不能使用压缩命令
fasterq-dump实测要比fastq-dump速度快很多很多。
SRA工具常用的功能就这两个,还有其他的一些功能我没有使用过,如果需要学习,可以参考官方文档
Pingback:RNA-seq数据分析流程-Ⅰ – MyBioDatas