Genbank_生物学、数据库、基因

1 英文参考

Genbank

2 概述

GenBank 是一个开放获取的序列数据库，对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注释。此数据库是国际协作核酸序列数据库（INSDC）的一部分，由美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）主管，NCBI为美国国立卫生研究院的下属机构。GenBank和它的合作者从全球各个实验室接收了超过百万种生物的数据。Genbank库包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释。它的数据直接来源于测序工作者提交的序列、由测序中心提交的大量EST序列和其它测序数据、以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室（EMBL）的数据库，和日本的DNA数据库（DDBJ）交换数据，使这三个数据库的数据同步。到1999年8月，Genbank中收集的序列数量达到460万条，34亿个碱基，而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库，或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务，用户可以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000个物种，其中56%是人类的基因组序列（所有序列中的34%是人类的EST序列）。每条Genbank数据记录包含了对序列的简要描述，它的科学命名，物种分类名称，参考文献，序列特征表，以及序列本身。序列特征表里包含对序列生物学特征注释如：编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里，如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被各自分成若干个文件。

Genbank网站：https://www.ncbi.nlm.nih.gov/genbank/

3 Genbank的历史

1979年，洛斯阿拉莫斯国家实验室（LANL）理论生物学和生物物理学小组的Walter Goad等人建立了洛斯阿拉莫斯序列数据库，最终成为了公共的 GenBank数据库的前身。1982年，由美国国立卫生研究院、美国国家科学基金会、美国能源部和国防部共同出资，LANL与BBN科技公司合作，成立了GenBank。到1983年底，已有超过2,000个序列被存储在GenBank。

在20世纪80年代中期，斯坦福大学的Intelligenetics bioinformatics公司与LANL合作经营着GenBank项目^[5]。作为最早的互联网生物信息学社区项目，GenBank计划为生物学家打造一个开放获取的BIOSCI/Bionet消息社群。1989到1992年，GenBank被转移到新成立的美国国家生物技术信息中心^[6]。

Genbank和EMBL在1986/1987年出版的《核苷酸序列》I到VII卷

4 GenBank的发展

在GenBank的版本162.0（2007年8月）的发行说明中道出：“从1982年到现在，GenBank中的碱基数每隔18个月翻一番。”^[7]

截至2013年7月8日，GenBank的版本196.0已有165,740,164个基因座，152,599,230,112个碱基，165,740,164个报导序列^[3]。 GenBank数据库还包括一些额外的数据集，不包括在这个统计内。

5 Genbank数据检索

大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列（HighThroughput Genomic Sequences，HTG）、表达序列标记（Expressed Sequence Tags，EST）、序列标记位点（SequenceTaggedSites，STS）和基因组概览序列（Genome Survey Sequences，GSS）单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统，用户不仅可以方便地检索Genbank的核酸数据，还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库（MMDB）的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。Entrez提供了方便实用的检索服务，所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件（Limits）、索引（Index）、检索历史（History）和剪贴板（Clipboard）等功能来实现复杂的检索查询工作。对于检索获得的记录，用户可以选择需要显示的数据，保存查询结果，甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索。

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

序列条目的关键字包括代码（LOCUS），说明（DEFINITION），编号（ACCESSION），核酸标识符（NID），关键词（KEYWORDS），数据来源（SOURCE），文献（REFERENCE），特性表（FEATURES），碱基组成（BASE COUNT）及碱基排列顺序（ORIGIN）。

代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供？

关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2 （cyclooxygenase-2），前列腺素合成酶（prostaglandin synthase）。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管（umbilical vein）。次关键字种属（ORGANISM）指出该生物体的分类学地位，如本例人、真核生物等等。文献字段说明该序列中的相关文献，包括作者（AUTHORS），题目（TITLE）及杂志名（JOURNAL）等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内（本例，您看到的是一个分类数据库（tax NCBI on 9606），以及一个蛋白质数据库（PID：g181254））；序列中各部分的位置都加以标明，5’非编码区（1-97），编码区（98-1912），3非编码区（1913-3387），多聚腺苷酸序列（3367-3374），等等；蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数（1010A，712个C，633个G，1032个T）。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。检索方式：

如果在文献中看到过你感兴趣的基因，而且文中还提到了该基因在Genbank中的ID号，进入NCBI ，在Search后的下拉框中选择Nucleotide，把Genbank ID号输入GO前面的文本框中，点“GO”，即可以检索到所需序列。

6 向Genbank提交序列数据

测序工作者可以把自己工作中获得的新序列提交给NCBI，添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

BankIt是一系列表单，包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后，会从电子邮件收到自动生成的数据条目，Genbank的新序列编号，以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列，而不适合大量序列的提交，也不适合提交很长的序列，EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释，并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列，可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录，还可以用于序列的分析，任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在下找到，Sequin的使用说明可详见其网页。