Taxonomy-物种分类数据库
Taxonomy-物种分类数据库

Taxonomy-物种分类数据库

在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。
这次我们将分别介绍几个耳熟能详的常用数据库。

NR/NT 数据库

NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。此数据库是NCBI建立并维护的。
NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以将数据直接下载到本地,建立本地版的BLAST+数据库。需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的,将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。(可直接通过BLAST+软件进行下载数据库并建立索引)

Taxonomy 数据库

Taxonomy数据库是NCBI的一个重要组成部分,用于存储和管理生物分类学信息。它是一个全球公认的生物分类系统,包含了各种生物的分类、命名和分类信息。Taxonomy数据库提供了一个完整的生物分类系统,包括从域(Domain)到种(Species)的各个分类级别。
Taxonomy数据库为每个物种提供了详细的分类信息,包括其科属、亚种、变种等级别的分类信息。
Taxonomy数据库还提供了物种的系统发育树,显示了不同物种之间的进化关系和亲缘关系。
Taxonomy数据库通常包含了一系列的分类和子分类,每个分类都有一个唯一的标识符和一些属性。这些属性可以描述分类的特征、属性和关系,使得用户可以根据这些属性进行查询和检索。
Taxonomy Browser – NCBI – NLM

此数据库在线查询使用非常频繁。

RefSeq/GenBank数据库

RefSeq数据库和GenBank数据库都是重要的生物信息学资源,它们在存储和管理生物序列数据方面发挥着关键作用。以下是这两个数据库的主要区别:

特征/名称RefSeq数据库GenBank数据库
来源由NCBI科研人员与一些机构合作,从INS DC中挑选出质量高的序列构成来源于用户提交的序列
冗余性非冗余可能存在冗余
质量控制经过专家审查和校正提交者负责质量控制
序列选择每个基因选择一个代表序列包含多个序列版本
注释信息必须包含注释注释信息可有可无
维护者由NCBI维护由提交者维护
访问号前缀GCF_GCA_
应用场景生信分析的参考基因组存储和备份序列记录

GTDB数据库

GTDB(Genome Taxonomy Database)是一个专注于基因组分类学的数据库,旨在提供高质量的细菌、古细菌、叶绿体和线粒体的分类信息。通过使用全基因组信息,GTDB提供了多级别的分类,包括域、界、纲、目、科、属等级别。
在宏基因组学分析的物种注释中常使用的一个数据库。

生物学界物种分类

生物分类等级有:域、界、门、纲、目、科、属、种。
英文分别是Domain、Kingdom、 Phylum、 Class、Order、 Family、 Genus、Species。

NCBI上 域(Domain)有四大类:Eukaryota(真核生物域)、Archaea(古菌域)、Bacteria(细菌域)、Viruses(病毒)
(病毒其实不是一个域,但是我这里归纳到域里去理解了)

  • Eukaryota(真核生物域):包括所有具有复杂细胞结构的生物,这些生物的细胞内有核膜包被的细胞核和多种细胞器。真核生物域包括动物、植物、真菌以及某些单细胞的原生生物,如藻类和原生动物。
  • Archaea(古生菌域):古生菌是一类独特的原核生物,它们在遗传特征和生理特性上与细菌有所不同。古生菌通常能在极端环境中生存,如高温、强酸、强碱或高盐环境。
  • Bacteria(细菌域):细菌是单细胞微生物,广泛存在于自然界中。它们在形态、生理和生态多样性方面都非常丰富。细菌在生态系统中扮演着重要角色,一些细菌对人类有益,而另一些则可能引起疾病。
  • Viruses(病毒):病毒是一种非细胞形式的生物体,它们需要寄生在宿主细胞内才能复制和生存。病毒具有非常简单的结构,通常由蛋白质外壳和内部的遗传物质(DNA或RNA)组成。病毒可以感染各种生物,包括动物、植物和微生物,某些病毒对人类健康构成威胁。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注