生物信息学软件-cufflinks套装、RSeQC工具包
生物信息学软件-cufflinks套装、RSeQC工具包

生物信息学软件-cufflinks套装、RSeQC工具包

Cufflink

Cufflinks是一款在生物信息学领域中广泛使用的软件套件,主要用于RNA-seq数据的分析。能够根据比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。

Cufflinks套件包括四个主要部分:

  • cufflinks:用于组装转录本并估计其丰度。
  • cuffcompare:用于比较两个或多个转录本集合的相似性。
  • cuffmerge:用于将多个转录本集合合并成一套转录本集合。
  • cuffdiff:用于衡量两个或多个样本间差异表达的基因。

RSeQC

RSeQC是一款RNA-Seq比对质量控制工具,它提供了一系列有用的小工具,能够评估高通量测序数据的质量。RSeQC特别适用于RNA-Seq数据的分析,它包含了一些基本模块,如检查序列质量、核酸组分偏性、PCR偏性和GC含量偏性等。此外,RSeQC还提供了一些RNA-Seq特异性模块,如评估测序饱和度、映射读数分布、覆盖均匀性、链特异性以及转录水平RNA完整性等。

RSeQC是一个python工具包,包含了一系列的单独小脚本:

  • read_distribution.py:用于计算和展示reads在基因组特征(如外显子、内含子和非翻译区)上的分布情况。用于了解测序数据在基因结构上的覆盖情况。
  • geneBody_coverage.py:用于评估reads在基因体(gene body)上的覆盖均匀性。它能够生成覆盖度折线图和热图,帮助用户识别可能的测序偏差。
  • junction_annotation.py:用于统计reads在剪接位点的分布情况,包括与参考基因组完全一致、部分一致和完全不一致的剪接位点。这对于评估剪接事件的检测和注释非常重要。
  • junction_saturation.py:用于评估测序饱和度,通过分析剪接位点的读数分布来判断测序深度是否足够。
  • mismatch_profile.py:用于显示不匹配位点在reads位置的统计情况,有助于识别测序错误或序列变异。
  • read_duplication.py:用于统计重复序列的分布,包括定义序列相同的重复序列和定位到同一位置的重复序列,这对于评估PCR偏性非常重要。
  • read_GC.py:用于计算和展示reads的GC含量分布,有助于识别可能的GC偏性。
  • inner_distance.py:用于计算插入片段大小,这对于评估文库制备的质量和测序策略的有效性非常重要。
  • RPKM_saturation.py:对于每个基因,检查RPKM值是否饱和。饱和度分析基于重新采样。例如,样品5%、10%,从总映射读数中计算95%、100%,然后计算每一步的RPKM值。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注