工具编程

生物信息学软件-SRA Toolkit

2024 年 10 月 10 日 2024 年 10 月 10 日

Sratools是NCBI官方提供，用于操作SRA (reads and reference alignments) 数据的工具集合（SRA：Sequence Read Archive）
一般常用于下载SRA文件，从SRA文件中提取fastq，sam文件，查看SRA文件信息等

下载安装有两种方法：1通过Conda安装；2通过NCBI官网下载安装包安装。

sra工具集

prefetch 下载文件

[wangzq@server3 3.0.10]$ ./bin/prefetch
Usage:
  prefetch [options] <SRA accession> [...]
  Download SRA files and their dependencies

  prefetch [options] --cart <kart file>
  Download cart file

  prefetch [options] <URL> --output-file <FILE>
  Download URL to FILE

  prefetch [options] <URL> [...] --output-directory <DIRECTORY>
  Download URL or URL-s to DIRECTORY

  prefetch [options] <SRA file> [...]
  Check SRA file for missed dependencies and download them
#################################################################
prefetch SRR26717485  #下载一个文件
prefetch --option-file sraid.txt   #下载多个文件

fastq-dump、fasterq-dump 文件转换

把下载的SRA文件格式转换成标准的fastq（fasta）文件格式。

./bin/fastq-dump --help #查看具体的参数
#其中输出文件有三种格式可选，这里着重介绍一下
#--split-spot、--split-files、--split-3
#--split-3将产生三个输出文件，分别是R1、R2端数据；还有一个文件存放的是R1、R2两端不匹配的reads。
#--split-files将产生两个输出文件，分别是R1、R2端数据；此参数将不考虑不匹配的reads。
#--split-spot将产生一个输出文件。拆分的R1、R2都放在一个文件中，生成一种 8 行的 fastq 格式，其中前向序列在前，反向序列在后。（这个我没有使用过）
#--gzip、--bzip2 指定输出文件直接压缩。但是最新版本里弃用的这个功能。
#--defline-qual、--defline-seq 这两个参数是用于指定输出的fastq文件的文本格式。
##一般--qual-defline使用 '+'即可；--defline-seq根据自己的需求设定，我一般设定为 @$ac-$si/$ri （$ac：样本名，$si：reads编号，$ri：reads端号）

./bin/fasterq-dump #查看具体的参数
#fasterq-dump和fastq-dump的功能完全一样
#fasterq-dump的优点是可以多线程进行分析，使用-e参数指定线程数。
#fasterq-dump不能使用压缩命令

fasterq-dump实测要比fastq-dump速度快很多很多。

SRA工具常用的功能就这两个，还有其他的一些功能我没有使用过，如果需要学习，可以参考官方文档

一条评论

Pingback：RNA-seq数据分析流程-Ⅰ – MyBioDatas

发表回复取消回复