生物信息学软件-SRA Toolkit
生物信息学软件-SRA Toolkit

生物信息学软件-SRA Toolkit

  • Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合(SRA:Sequence Read Archive)
  • 一般常用于下载SRA文件,从SRA文件中提取fastq,sam文件,查看SRA文件信息等

下载安装有两种方法:1通过Conda安装;2通过NCBI官网下载安装包安装

sra工具集

prefetch 下载文件

[wangzq@server3 3.0.10]$ ./bin/prefetch
Usage:
  prefetch [options] <SRA accession> [...]
  Download SRA files and their dependencies

  prefetch [options] --cart <kart file>
  Download cart file

  prefetch [options] <URL> --output-file <FILE>
  Download URL to FILE

  prefetch [options] <URL> [...] --output-directory <DIRECTORY>
  Download URL or URL-s to DIRECTORY

  prefetch [options] <SRA file> [...]
  Check SRA file for missed dependencies and download them
#################################################################
prefetch SRR26717485  #下载一个文件
prefetch --option-file sraid.txt   #下载多个文件

fastq-dump、fasterq-dump 文件转换

把下载的SRA文件格式转换成标准的fastq(fasta)文件格式。

./bin/fastq-dump --help #查看具体的参数
#其中输出文件有三种格式可选,这里着重介绍一下
#--split-spot、--split-files、--split-3
#--split-3将产生三个输出文件,分别是R1、R2端数据;还有一个文件存放的是R1、R2两端不匹配的reads。
#--split-files将产生两个输出文件,分别是R1、R2端数据;此参数将不考虑不匹配的reads。
#--split-spot将产生一个输出文件。拆分的R1、R2都放在一个文件中,生成一种 8 行的 fastq 格式,其中前向序列在前,反向序列在后。(这个我没有使用过)
#--gzip、--bzip2 指定输出文件直接压缩。但是最新版本里弃用的这个功能。
#--defline-qual、--defline-seq 这两个参数是用于指定输出的fastq文件的文本格式。
##一般--qual-defline使用 '+'即可;--defline-seq根据自己的需求设定,我一般设定为 @$ac-$si/$ri ($ac:样本名,$si:reads编号,$ri:reads端号)
./bin/fasterq-dump #查看具体的参数
#fasterq-dump和fastq-dump的功能完全一样
#fasterq-dump的优点是可以多线程进行分析,使用-e参数指定线程数。
#fasterq-dump不能使用压缩命令

fasterq-dump实测要比fastq-dump速度快很多很多。


SRA工具常用的功能就这两个,还有其他的一些功能我没有使用过,如果需要学习,可以参考官方文档

一条评论

  1. Pingback:RNA-seq数据分析流程-Ⅰ – MyBioDatas

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注