本片将从分析流程角度介绍单细胞测序分析的宏观思路,相关分析结果解读。
再介绍cellranger和Seurat 这两个非常常用的单细胞分析软件。
本片只介绍简单思路和基础分析部分,后续的高级分析涉及版权,不做介绍。
技术实验背景
10X Genomics平台采用了基于微滴的微流体技术来实现单细胞测序。其核心技术原理包括以下几个步骤:
- 1:单细胞样本制备:首先需要将组织样本制备成单细胞悬液。10X平台可以使用多种方法制备单细胞悬液,如显微操纵术、流式细胞分选(FACS)、激光捕获显微切割等。其中,微流体技术因低样品消耗和低分析成本而广受欢迎。
- 2:GEM(凝胶珠乳液)形成:10X Genomics利用油包水体系生成微小的液滴,每个液滴包含一个细胞和一个带有特定接头的凝胶珠。这些凝胶珠表面带有独特的条形码(barcode)和分子标签(UMI),用于后续区分不同的细胞和校正PCR扩增偏差。
- 3:细胞裂解与mRNA捕获:在微油滴中,单个细胞被裂解,释放出的mRNA通过与凝胶珠表面的Poly(dT)序列互补结合而被捕获。Poly(dT)序列与mRNA的Poly(A)尾互补,从而确保了mRNA的有效捕获。
- 4:cDNA合成与扩增:在油滴内进行逆转录反应,将捕获的mRNA转化为cDNA。随后,油滴被打破,cDNA进行PCR扩增,生成大量带有barcode和UMI标签的cDNA片段。
- 5:文库构建与测序:扩增后的cDNA片段进行末端修复、加A尾和接头连接等步骤,构建测序文库。最后,利用Illumina测序平台进行高通量测序。Read 1包含测序接头、Index和UMI信息;而Read 2则是mRNA的序列信息。
barcode和UMI:
- 条形码(barcode):用于区分不同的细胞。10X Genomics技术通过微流控技术将细胞与带有独特条形码的凝胶微珠混合,一个微珠上的barcode是相同的,不同微珠上的barcode是不同的。这样就可以通过条形码来追踪每个细胞来源的RNA序列。
- 唯一分子标识(UMI):用于区分来自同一细胞内的不同mRNA分子。UMI是一段随机序列,一个微珠的每条poly(dT)序列都有唯一的UMI。通过统计不同的UMI数量,可以准确地量化细胞内mRNA的表达水平,从而校正PCR扩增过程中可能引入的偏差(避免了PCR扩增偏好性 带来的Duplication对结果的影响)。
总结:所以单细胞测序下机的fastq数据和其他的下机数据有所不同,一般 R1端都是实验操作加入的barcode和UIM等,R2端才是真正目标的测序读段数据。
包含barcode和UMI的R1端只是为了定位细胞、定位mRNA、消除PCR扩增偏好性带来的Duplication影响。
具体的原理需要介绍10X-genomics建库测序原理才能讲清楚。这里只需要知道结论即可。
cellranger
CellRanger是10x Genomics公司开发的一款用于处理和分析单细胞RNA测序(scRNA-seq)数据的工具。它能够将原始的scRNA-seq数据从测序仪中提取和处理,包括数据去噪、质量控制、细胞检测和聚类分析等步骤。
cellranger count
cellranger count:将FASTQ文件进行比对、过滤、barcode计数以及UMI计数,UMI计数(UMI Counting)和细胞条形码调用(Cell Barcode Calling),生成feature-barcode定量矩阵,确定细胞群并进行基因表达分析。
分析完成会获得web_summary.html、metrics_summary.csv文件,用于查看测序质量和检测到的细胞特征值等运行结果。possorted_genome_bam.bam、possorted_genome_bam.bam.bai文件,即fastq文件比对到参考基因组的比对结果。在outs文件夹下面有raw_feature_bc_matrix、filtered_feature_bc_matrix两个文件夹包含特征条形码矩阵文件,可直接用于R软件下游分析,*feature_bc_matrix里面都有matrix.mtx.gz、features.tsv.gz、barcodes.tsv.gz文件,一个是原始的raw、一个是过滤之后的filtered,filtered_feature_bc_matrix文件夹可直接用R语言的Seurat包Read10X、CreateSeuratObject函数直接生成一个SingleCellExperiment对象。cloupe.cloupe文件是一个用Louoe Cell Browser软件打开可视化的二进制文件,其中包含了细胞信息、基因表达信息、基因信息、质控信息等等。还有filtered_feature_bc_matrix.h5、raw_feature_bc_matrix.h5、molecule_info.h5 三个HDF5格式文件,包含基因信息、细胞信息、基因表达矩阵、质控信息、元数据等。其中molecule_info.h5详细记录了每个分子的详细信息。后续多样本合并的aggregate操作需要此文件。
TIPS:注意在运行cellranger count之前最好使用FastQC、Seqtk、FastP等软件对Fastq文件做基础的质控过滤操作,并且cellranger count指定了输入fastq文件必须是$ID_S1_L001_R1_001.fastq.gz、$ID_S1_L001_R2_001.fastq.gz的输入格式。
cellranger aggr
cellranger aggr:主要功能是整合多个样本的表达矩阵。这对于需要比较不同条件或不同时间点的单细胞数据的研究非常有帮助。通过aggr,可以标准化去除测序深度的影响,从而得到更准确的比较结果。
使用cellranger aggr时,需要指定一个ID、一个包含样本信息的CSV文件以及标准化方法。cellranger aggr --id=aggr --csv=aggregation.csv --normalize=mapped
id
自行指定,作为输出结果的名字;aggregation.csv
一般都是cellranger count的输出结果汇总,一般有三列(sample_id、molecule_h5的绝对路径、batch)。batch从web_summary.html中可以捕获到。
cellranger aggr的输出结果在./aggr/outs
文件夹下有web_summary.html、aggregation.csv、cloupe.cloupe、filtered_feature_bc_matrix.h5文件、filtered_feature_bc_matrix文件夹。这些文件包含的信息内容和前面提到的一样,区别就是这里是全部样本汇总在一起的结果。
cellranger reanalyze
cellranger reanalyze:接受cellranger count或cellranger aggr的输出文件,对数据重新进行降维、聚类等后续分析。这是cellrange软件自带的后续分析功能,这里只做了解。后续将详细介绍基于Seurat软件的分析。
cellranger mkfastq
cellranger mkfastq:将Illumina测序仪产生的raw base call (BCL) 文件解析成FASTQ文件。和直接运行bcl2fastq软件拆分BCL成Fastq完全相同(内核就是调用bcl2fastq软件),不做介绍。
Seurat
Seurat是单细胞数据分析集成软件包。其功能不仅包含基本的数据分析流程,如质控、细胞筛选、细胞类型鉴定、特征基因选择、差异表达分析、数据可视化等等。同时也包括一些高级功能,如时序单细胞数据分析,不同组学单细胞数据整合分析等。
Seurat包的具体函数功能本篇不做过多介绍,后面有时间会出一篇Seurat的详细介绍……