生物数据库基因ID

小苏碎碎念:

科研分析中经常会遇到各种各样的基因ID类型,了解各种命名的来源和规则有助于我们在不同的数据库之间进行转换和使用。同时因各种各样的数据库越来越多,本文档也会持续完善和更新~~~🍊。

背景知识

  • NCBI:National Center for Biotechnology Information, 即美国国家生物技术信息中心,是一个机构名称,不是数据库。

  • Entrez 是一个归属于 NCBI 的综合性的生物信息数据检索引擎系统,这个搜索引擎整合了包含核酸、蛋白质、基因、基因组、GEO 等在内的很多常用数据库。

  • HGNC: HUGO Gene Nomenclature Committee, 即人类基因命名委员会。人类大多基因的命名,是有HGNC完成的。
  • 小鼠(mouse)的基因命名来源于MGNC;大鼠(rat)基因命名来源于RGNC;斑马鱼(zebrafish)基因命名来源于ZFIN
  • Ensembl 基因组数据库项目,是 1999 年启动的,来应对当时即将完成的人类基因组计划的一个科学项目,是科研人员用于检索基因组信息的最常用数据库之一。
  • refseq参考序列数据库,是NCBI提供的具有生物学意义上的非冗余的基因和蛋 白等片段序列的数据库。它是目前世界上比较权威的序列数据库,一般可信度是比较高的。

Entrez Gene ID

Entrez ID

Entrez gene ID 来源于 Entrez gene 数据库的编号系统。Entrez 基因数据库其实就是我们现在指的 NCBI 中的 Gene 数据库,这两个名字指的是同一个数据库

Entrez Gene ID编号的格式就是一串数字。比如说像 TP53,他下面的 gene ID:7157

Gene Symbol

official Symbol, HGNC symbol

  • Office symbol: 是HGNC组织对基因进行命名的描述的一个缩写标识符
  • Office Full Name: 是经HGNC批准的基因名全称
  • HGNC ID:是HGNC数据库分配的基因编号,每个标准的symbol都有对应的HGNC ID

注:并不是所有的基因都有Official Symbol。如果基因缺少基因命名委员会命名的Gene Symbol,Entez Gene数据库中的Official symbol 就会变为Gene Symbol, 并且Gene Symbol的编号会变为LOC前缀加Entrez ID。如:

Ensemble ID

Ensembl Stable ID

命名规则:ENS[根据不同物种设置的前缀][数据所指类型(如基因,蛋白等)][一段特定的数字] . [版本]

RefSeq Accession Number

RefSeq ID

命名的格式以两个字母开头,后面跟一个下划线和六个或多个字母

注:在 NCBI 的这个检索结果里,refseq status 这一行会显示这条 refseq 的状态。主要状态有:MODEL 指自动被 NCBI 提供的,没有被审核过,INFERRED 指由序列分析预测得到,没有经过实验验证,PREDICTED 指没有经过人工审核,REVIEWED 指已被人工审 核等等,可以根据这条信息认定序列的可信度。