• / 4
  • 下载费用:10 金币  

生物信息学数据库综述.doc

关 键 词:
生物信息学数据库综述.doc
资源描述:
生物信息学数据库综述摘 要 本文对生物信息学常见的数据库进行了汇总。常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。并分别对其中常见数据库进行了介绍。对于生物信息学数据库的现存问题也进行了论述。关键词 数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库;随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。本文将比较常见的数据进行了汇总。1 核酸序列数据库常用的核酸序列数据库有 GenBank 核酸序列数据库、 EMBL 核酸数据库、DDBJ 数据库、 GDBD 等。1.1GenBankGenbank 库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(N CBI)建立和维护的。Genbank 每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank 的数据可以从 N CBI 的 FrP 服务器上免费下载完整的库,或下载积累的新数据。N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从 N CBI 的主页上找到这些服务。Gel~ bank 库里的所有数据记录被划分在若干个文件里 ,如细菌类、病毒类、灵长类、啮齿类,以及 EST 数据、基因组测序数据、大规模基因组序列数据等 16 类,其中 EST 数据等又被各自分成若干个文件 1.2 EM BL 核酸序列数据库EM BL 核酸序列数据库由欧洲生物信息学研究 所(EBI)维护的核酸序列数据构成,由于与 Genbank 和 DDBJ 的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由 Oracal 数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N 务完成 l 6J。向 E M BL 核酸序列数据库提交序列可以通过基于 W eb 的 WEBI N 工具,也可以用 Sequi n 软件来完成。 1.3 DD BJ 数据库 D D BJ 数据库创建于 1984 年,由日本国立遗传学研究所遗传信息中心维护。它首先反映日本所产生的 DNA 数据,同时与 Genbank、EMBL 合作互通有无,同步更新,每年四版。日本 DNA 数据仓库(DDBJ)也是一个全面的核酸序列数据库。可以使用其主页上提供的 SAS 工具进行数据检索和分析。可以用Sequin 软件向该数据库提交序列。 1 .4 G D B 人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。GDB 的目标是构建关于人类基因组图谱和测序。目前 GDB 中有:人类基因组区域(包括基因、克隆、amplimersPCR 标记、断点 breakpoint 细胞遗传标记 cytogenetic markers、易碎位点 f r agile、 EST 序列、综合区域 syndromic regions、contigs 和重复序列);人类基因组图谱( 包括细胞遗传图谱、连接图谱、放射性杂交图谱、content conting 图谱和综合图谱等);人类基因组内的变异 (包括突变和多态性,加上登位基因频率数据)。GDB 数据库以对象模型来保存数据,提供基于 Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式看基因组图谱 。 2 蛋白质序列数据库 随着 HGP 计划的不断深入以及测序技术的不进步,蛋白质序列信息也成指数级增长,蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源,并辅以序列来源序列发布时间、序列参考文献、序列特征等内容加以注释,最终形成数据文件,存放于数据库。目前规模较大的综合型蛋白质序列数据库有:PIR 、SW ISS —PR OT/TrEMBL 、PROSITE 等。 2 .1 PIR 和 PSD PI R 是蛋白质信息资源(Protein Information Re—source)的缩写。这是一个国际蛋白质序列数据库,它包含所有序列已知的自然界中野生型蛋白质的信息。此库的主要目的是提供按同源性和分类学组织的综合的、非冗余的数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列以按蛋白质家族分类。PIR 国际蛋白质序列数据库(PSD) 是由美国华盛顿的全国生物医学研究基金会(NBRF)所支持的 PIR、慕尼黑蛋白质序列信息中心(MIPS)和 13 本国际蛋白质序列数据库(JI PI D )共同维护的国际上最大的公共蛋白质序列数据库。PSD 的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引。每季度都放行一次完整的数据库,每周可以得到更新部分。 2 .2 SWISS—PROTSW ISS—PROT 是对数据人工审读很严格经过注释的蛋白质序列数据库,由欧洲生物信息研究所(EBI) 维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS—PROT 中尽可能减少了冗余序列,并与其它 3O 多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS )可以方便地检索 SWISS—PROT 和其它 EBI 的数据.SWISS —PROT 只接受直接测序获得的蛋白质序列,序列提交可以在其 Web 页面上完成。北京大学生物信息中心有SWISS—PROT 镜像,可以通过检索工具 SRS[R 一 210]查询。 2 .3 P R O Sn E PROSI TE 由专家根据生物知识审编 SWISS— PROT 蛋白质序列中有生物意义的位点、模式和轮廓的数据库。涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域;除了序列模式之外,PROSI TE 还包括由多序列比对构建的 prof ile,能更敏感的发现序列与 profile 的相似性。PROSI T E 的主页上提供各种相关检索服务。 3 蛋白质结构数据库将通过实验研究如基于 x 射线和核磁共振(NMR)分析所获得的关于蛋白质、酶、病毒、碳水化合物和核酸的晶体结构数据收集起来,就形成了生物大分子的结构数据库.虽然其中序列的数量远比不上蛋白质序列数据库,但其数据量也显然在呈指数增长。 3 .1PDB 蛋白质数据库(PDB)由美国 Brook_ haven 国家实验室建立。PDB 收集的数据来源于 x 光晶体衍射和核磁共振(NMR)实验测定的生物大分子三维结构数据,经过整理和确认后存档而成,是国际上唯一的生物大分子结构数据档案库。RCSB 的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于 PDB 数据文件格式和其它文档的说明。 3 .2 SC O P 蛋白质结构分类(SCOP )数据库详细描述了已知蛋白质结构之间的关系。分类基于若干层次:家族 ,描述相近的进化关系;超家族,描述远源的进化关系;折叠子,描述空间几何结构的关系;折叠类,所有折叠子被归于全 a、全p、a/、a + f 3 和结构域等几个大类。 SCOP 还提供了一个非冗余的 ASTRA IL序列库,这个库通常被用来评估各种序列的比对算法。此外,SCOP 还提供一个 PDB—ISL 中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。 3 .3 CA TH CATH 数据库是一个新的对蛋白质结构域进行等级分类的数据库,它通过半自动的方法对不鲁克海文蛋白质数据库中的单一或者多结构域蛋白质结构进行等级分类,非蛋白质结构、模型以及纯 alphac 结构都没归在 CATH 中,而且收集的蛋白质晶体结构或者核磁共振结构的分辨率要求小于 0.3mm。分类按照 4 个水平: 簇 (class(C )),构件(architecture (A )),拓扑结构(topology (T))和同源超家族(homolo—gous supefamily(H ))。 3 .4 FSSPFSSP 基于 PDB 数据库中现有蛋白质三维结构,用自动结构对比程序 Dali逐一比较而形成的折叠单元和家族分类库。它以 PDB 非冗余数据库作为数据源,进行彻底、全面的三级结构较,而且数据库的升级以及维护都是 DALL 搜索引擎支持的。此库在 PDB 库每次新版后 自动更新。 3 .5 M M D B 蛋白质模型数据库(Molecular Modeling Data.base),由 NCBI 的 MMDB 组维护。这是 Entrez 检索工具所使用的三维结构数据库,它以 ASN. 1 格式反映 PDB 库中的结构和序列数据,引文连接到 MED.IJN E. MMDB 有一个配套的三维结构显示程序 Cn3D。生物信息数据库的发展是十分惊人的,但也存在诸多问题。大多数数据库对于数据的创新、精确性和准确性没有权威评价,数据过多、重复、分类较粗等等。因此需要生物信息学专家们在数据库结构设计、数据处理、数据提取、数据的重新组合、专一性等几方面进行更进一步的完善。我国的生物信息学数据库也蓬勃发展起来。北京大学于 1997 年 3 月成立了生物信息学中心,华大基因研究中心是我国目前测序能力最强的单位,广州中山大学生物信息中心与法国巴斯德研究所合作于 1999 年 9 月开通了“法国巴斯德亚洲研究网” 。中国科学院上海生命科学研究院也于 2000 年 3 月成立了生物信息学中心,分别维护着国内两个专业水平较高的生物信息学网站。但是,我国尚未形成比较完整有效地生物信息数据库系统现有的数据库的质量也有待提高,服务有待改善。 参考文献: [1] 张阳德.生物信息学[M ].北京:科学出版社,2O04. [2] 张成岗,贺福初.生物信息学方法与实践[M ].北京:科学出版社,2OO2. [3] 王哲.生物信息学概论[M ].北京:第四军医大学出版社,2OO2. [4] 维斯特海德,帕里什,特怀曼.生物信息学( 中译本)[M ].北京:科学出版社,2OO4. [ 5] 蒋彦,王小行,等.基础生物信息学及应用[M ].北京:清华大学出版社,2003. [6] 钟杨,张亮,等.简明生物信息学[M ].北京:高等教育出版社,2o o 1 . [7] 郝柏林,张淑誉.生物信息学手册[M ].上海:上海科学技术出版社,2002.
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:生物信息学数据库综述.doc
链接地址:https://www.weizhuannet.com/p-10039010.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开