生物信息学软件-fastQC、fastp、FASTX-Toolkit

fastQC

最常用的质控工具
二代测序下机的原始数据拿到手之后，第一步要做的事情就是看一看reads的质量。最常用的工具就是FastQC。
无论是RNA-seq、DNA-seq甚至三代测序的下机fastq数据都可以使用FastQC来进行质控。

fastQC可以从官网或者Conda下载，这里不再过多赘述

安装好之后可以“fastqc –help”查看帮助手册。fastQC功能非常单一，使用更简单。
其中有一个“–extract”参数，在pipeline中推荐使用。（正常情况输出结果是压缩包，使用此参数可自动解压。方便文件后续使用）

fastp

fastq文件质控过滤工具（还有一个过滤工具Trimmomatic，个人使用不如fastp，就不在做介绍）
fastp可以实现处理数据的一次性处理，包括过滤低质量，过滤adapter，截取reads，全局剪裁,split分割大文件等操作。
支持长reads，也就是不仅仅适用二代测序，还支持三代测序长测序数据。
直接输出质控和统计报告，包括json格式和html格式。

fastp是陈实富老师在github上开源的软件，可以直接下载，可以使用”wget http://opengene.org/fastp/fastp”命令直接下载。

fastp软件的功能非常多，具体内容请根据软件自带的–help文档参考学习。

FASTX-Toolkit

FASTX-Toolkit是用于短读FASTA / FASTQ文件预处理的命令行工具的集合。包含多个原始reads处理的小命令工具。
可通过官网下载安装、Conda安装。
conda create -p 存放路径 fastx-toolkit

fastx_toolkit由一系列的命令组成，每个命令提供一个实用的小功能。在使用时需要注意以下几点:

不支持压缩格式的输入文件
不允许序列中存在N碱基，这样的序列会自动去除
可视化命令依赖gunplot软件和perl的GD模块
默认情况下认为fastq文件的碱基编码格式为phred64

生物信息学软件-fastQC、fastp、FASTX-Toolkit

fastQC

fastp

FASTX-Toolkit

一条评论

发表回复取消回复

fastQC

fastp

FASTX-Toolkit

一条评论

发表回复 取消回复

发表回复取消回复