登陆注册
19084100000081

第81章 生物信息学(2)

以上我们从构建数据库的形式与内容的角度简要地说明了生物大分子数据库的基本特点。而从数据库代表知识的原始性来看,则生物大分子数据库可分为原始数据库或一级数据库和二级数据库。一级数据库是指来源于生物学实验测定的原始生物学数据并通过简单归类整理和注释而集成的数据库。一般的,一级数据库构建是一个比较漫长的过程,比如蛋白质结构数据库PDB 到目前为止已有三十多年,而其中的数据现在还一直在更新,它的最大特点是可以让实验工作者不需要重新测定这类数据。比如,某个蛋白质的三维结构已被搜集在PDB 库中,则一般来说就不需要对它重新测定。二级数据库是在一级数据库的基础上,应用适当的生物信息学或其他方法对一级数据进行计算、整理、归类,将最终结果集成一个相应的数据库,比如SCOP 数据库就是对PDB 数据库中的蛋白质按“类、折叠方式、超家族及家族”进行分类而构成的二级数据库;HSSP 数据库的一个主要内容就是对相关蛋白质进行序列比对,将比对结果构建相应的数据库。与一级数据库类似,构建二级数据库的主要目的也是将有关生物信息学研究的成果保存下来,供后人使用,从而达到后人不需要重复前人的工作。比如BLOCKS 数据库就是一系列多重序列比对数据块,人们根据它构建了BLOSUM 得分矩阵以及提取保守序列模式。

18.2.1序列数据库

生物大分子序列数据库主要是蛋白质序列数据库与基因序列数据库,最常用的序列数据库便是Swissprot,它们主要可从网站:http ://www.expasy.org/中找到。

该数据库由SIB (Swiss Institute of Bioinformatics,瑞士生物信息研究所)管理。

Swiss‐Prot 建于1986年,从1987年开始,主要由瑞士Geneva 大学医学生化系(现为瑞士生物信息研究所)和EMBL 数字图书馆(现为欧洲生物信息研究所EBI)建立。Swiss‐Prot 是一个经典的蛋白质序列数据库。它力求提供高水准的蛋白质注释(主要包括蛋白质功能的描述、功能区结构、翻译后修饰、变种等),尽可能与其他数据库整合在一起,同时尽可能减少其冗余度。与其他数据库相比,它至少有如下三个特点:

(1)它包括核心数据和注释部分。其中核心数据包括蛋白质本身序列;参考文献;分别(主要包括蛋白质的来源)。而注释部分主要包括:蛋白质功能;翻译后的修饰;功能模块和位点如钙连接区域,ATP 接合位点,Z 指纹(zinc fingers)等;蛋白质二级结构,四级结构如同类二聚体(homodimer),异类三聚体等;与其他蛋白质的相似性;与此缺失有关的疾病;序列冲突(sequence conflicts),变种等。

(2)最小的冗余度。

(3)与60个不同数据库的整合。

TrEMBL 是Swiss‐Prot 数据库的计算机注释的增补部分,包括EMBL 中没有被Swiss‐Prot 所收载的核苷酸序列翻译的增补部分。截止2007年2月20日,UniProtKB/Swiss‐Prot 51.7共收载了259034条序列条目,包括94408644个氨基酸残基,涉猎152164篇文献。

而在2007年3月6日公布的UniProtKB/TrEMBL 35.0版,则收载了3874166个蛋白质序列条目,共有1260291226个氨基酸残基。

18.2.2结构数据库

确切地说,现有的生物大分子结构数据库只有一个即PDB 数据库。其他的生物大分子结构数据库都是在PDB 数据库基础上分化而来的,如SCOP 数据库,CATH 数据库等就是在PDB 数据库基础上通过人工或自动分类产生的。因此,在结构数据库中,我们着重介绍PDB 数据库。

PDB(Protein Data Bank)即蛋白质结构数据库,是国际上惟一的生物大分子结构数据库。它于1971年由美国Brookhaven 国家实验室建立。PDB 蛋白质数据库所收集的生物大分子三维结构主要通过X 射线衍射和核磁共振(NMR)实验测定,包括结构数据、文献、一级二级结构信息。目前PDB 数据库的维护由结构生物信息学研究合作组织(Research Collaboration for Structural Bioinformatics,RCSB)负责管理,主要成员为Rutger大学,圣地亚哥超级计算中心(San Diego Supercomputer Center)和美国标准化研究所(National Institutes of Standards and Technology,NIST)。PDB 数据库可在网站上获取。

1)PDB 数据库的基本格式

下面是一个典型的PDB 数据库格式的描述。

PDB 中所有的分子空间结构信息文件的格式基本上都是一样的。文件由若干记录组成,每一记录有80个字符(包括空格)。开头的6个字符标明该记录的名称,现将各记录的意义分别叙述如下:

HEADER——该记录列出分子所属功能类,正式收入PDB 日期以及该分子的判别码。

OBSLTE——该记录列出已被新分子文件取代的一些旧的分子的有关信息。

COMPND——该记录列出分子名。

SOURCE——该记录说明分子来源。

AUTHOR——该记录列出提供坐标者的姓名。

REVDAT——该记录列出文件历次修改的日期等有关信息。

SPRSDE——该记录列出说明此文件取代旧文件的有关信息。

JRNL——该记录引用与确定该分子空间结构有关的主要文献。

REMARK——该记录为关于该分子文件的其他信息。其中:REMARK1专用于列出与该结构有关的其他文献,REMARK2和REMARK3分别是关于晶体结构的分辨率及精华的信息。

SEQRES——列出蛋白质一级结构。

HET——列出非标准基团或残基的信息,主要是指除标准20个氨基酸残基以外的基团信息。具体格式如下:1-3列是“ HET”;8-10列是非标准基团表示符;13列是链表示符号;14-17列顺序号;18列是插入码;21-25列是非标准基团中的原子数目;31-70列为注释。

HELIX——列出分子中有关α 螺旋的信息。1-6是“ HELIX”;8-10是顺序号;12-14螺旋表示符;16-18残基名;20链表示符;22-25残基序号;26插入码;28-30残基名;32链表示符;34-37残基序号;38插入码;39-40螺旋类别;41-70注释。

SHEET——列出分子中有关β 折叠的信息,其格式如下:1-5为SHEET ;8-10股号;12-14折叠表示符;15-16股数;18-20残基名;22链表示符;23-26残基序列号;27插入码;29-31残基名;33链表示符;34-37残基序号;38插入码;39-40类型判别码;42-45原子名;46-48残基名;50链表示符;51-54残基序号;55插入码;57-60原子名;61-63残基名;65链表示符;66-69残基序号;70插入码。

TURN——列出分子中有β 转角(发夹结构)的信息。

SSBOND——列出分子中有关二硫键的信息。

SITE——列出重要功能部位。1-4SITE ;8-10序号;12-14功能部位表示符;16-17组成功能部位的残基数;18-61组成功能部位的四个残基的位置信息。当然如果某功能部位由四个以上残基组成,则可以增加SITE 记录以包含全部残基的位置信息,但增加的记录其功能部位表示符(12-14列)就与原来记录一致。

CRYST——该记录列出关于晶体结构的单晶胞参数及空间群标识。

ORIGX——该记录列出将下交坐标变换为用户送交坐标的参数。

SCALE——由正交坐标变换为分数坐标的参数。

MATRIX——列出代表非晶体学对称性的变化参数。

TVECT——列出无限共价连接结构的变换向量。

ATOM——列出标准基团的各原子的坐标。这是PDB 的核心。其格式如下:1-4ATOM ;7-11原子序列号;13-16原子名;18-20残基名;22链表示符;23-26残基序列号;31-38原子X 坐标;39-46原子的Y 坐标;47-54原子Z 坐标;55-60占有率;61-66温度因子。

SIGATM——列出原子参数的标准差;ANISOU——列出各向异性温度因子。

SIGUIJ——列出各向异性温度因子的标准差;TER——列出链的末端残基。

有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基,其对应的原子就不是“ATOM”,而是“HETATM”,表明这些原子是外来原子,不是蛋白质本身的。

2)PDB 数据库中有关蛋白质结构的获取

蛋白质结构数据的获取有下列几条途径。第一种描述如下:

(1)打开网站,可得界面,输入所需要的蛋白质代码如“1g0v”,然后点击“Site Search”按钮,得到下一个界面。

(2)再点击左上面的“Download Files”,得到的界面。

(3)点击“PDB File”就可以得到你所需要的PDB 结构。这里右边有相应的蛋白质结构图。

第二种主要是在Linux 操作系统中可以比较方便地使用,具体命令如下:$ wgetqftp://ftp.rcsb.org/pub/pdb/data/structures/all/pdb/pdb1g0v.ent.Z。

通过这个命令可以得到蛋白质文件:pdb1g0v.ent.Z,然后解压缩即:$ gunzip pdb1g0v.ent.Z,就可以得到文本文件的蛋白质结构文件。

第三种则是通过匿名用户登录网页,然后应用“get”命令下载你所要的文件。

通过上述方式,可以得到所需要的蛋白质结构。

18.2.3分子疾病数据库

分子疾病数据库主要是描述与疾病有关的生物大分子与小分子数据库,由于疾病种类繁多,在分子疾病数据库这一小节中,仅列出相关的数据库名。

18.2.4生物信息学算法

生物信息学实质就是数学算法,一般的,所有的数学算法均是生物信息学算法,但是,各种数学算法其本身的特点及应用范围与生物学本身特点决定了有些算法在生物学中应用范围及频率较高,有些则应用频率相对较低。

比如人工神经网络方法早在1988年就有人将其用于蛋白质二级结构的预测,我们早在20世纪90年代初也比较系统地作了这方面的研究。在三级结构预测中的应用主要是用于预测模型的质量,如一致性预测中的Pcons1,折叠识别法中的GenTHREADER 等。

再如最优化方法,像共轭梯度法,拟牛顿法等在蛋白质天然构象预测中可以用于最低能量构象。而最优化方法中的动态规划法则被用于生物大分子序列分析如蛋白质、核酸的比对中,由此派生出一系列生物大分子序列比对方法,而且已成为生物信息学的支柱算法,因此本章重点介绍生物信息学中的配对序列比对方法。

1)配对序列比对方法(Pairwise Sequence Alignment)

序列比对方法不仅是蛋白质天然构象预测中一种最基本的方法,而且也是生物大分子序列分析的基本手段。它在蛋白质天然构象预测中所起的作用就是寻找待预测蛋白质与模板蛋白质之间的保守区。从这个意义上来说,序列比对方法在这两个领域中所起的作用是一样的。因此,这里首先介绍为什么要进行生物大分子序列分析。

众所周知,生物大分子包括DNA、RNA和蛋白质。虽然它们的结构组成及其在生物体内的功能不同,但它们有一个共同的特点:均为有限的小分子单元通过不同的排列组合方式完成。DNA 由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种基本碱基通过一定的排列方式组成。RNA 则由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(T)四种基本碱基排列组合而成。而蛋白质则由20个基本氨基酸按一定的排列方式通过肽键组合而成。理论上,通过不同的排列方式它们可以形成不同的DNA、RNA和蛋白质分子。比如,对一条100个长的DNA 链,理论上可以形成4100约1.6×1060条链,但实际生物体内,尽管其长度要远远大于100,但相应的DNA 链数要比这个数字小得多,而且非常有限。同样的,RNA 与蛋白质也存在这种情况。即地球上存在的生物大分子数目是非常有限的。产生这种状况的主要原因是“蛋白质的结构与功能的进化”。换言之,生物的复杂性是通过现有的生物大分子的修饰与重组形成,而不是通过不断产生新的生物大分子形成的。

同类推荐
  • 优秀教师教与学的启示

    优秀教师教与学的启示

    本书是“中小学教师教学丛书”中的第十九册,本书通过多种多样的形式,大量生动形象、多学科的实践案例,对教师在教与学方面进行总结分析,从而得到更全面的启发,本书将知识性、趣味性与可操作性很好地结合在一起,可谓各阶层教师的必备良书。
  • 校园科普类活动指导手册

    校园科普类活动指导手册

    根据党和政府有关政策和部门的要求以及国内外最新校园文化艺术的发展方向,特别编撰了《五彩校园文化艺术活动》丛书,不仅包括校园文化艺术活动的组织管理、策划方案等指导性内容,还包括阅读、科普、歌咏、器乐、绘画、书法、美化、舞蹈、文学、口才、曲艺、戏剧、表演、游艺、游戏、智力、收藏、棋艺、牌技、旅游、健身等具体活动项目,还包括节庆、会展、行为、环保、场馆等不同情景的活动开展形式等,具有很强的系统性、娱乐性、指导性和实用性。
  • 青少年应该知道的奥林匹克知识

    青少年应该知道的奥林匹克知识

    《青少年应该知道的知识小百科》共12册,是专为中国青少年量身定做的一套全方位知识图书。《青少年应该知道的知识小百科》涵盖了青少年成长过程中不可或缺的历史、科技、军事、文化等不同领域知识精华。本丛书旨在启发青少年学习积极性,积极引领中国青少年朋友走向未来,使青少年朋友们能够在轻松与快乐中学习知识、健康成长,是广大青少年学习新知识的理想读物。而这本《青少年应该知道的影视艺术知识》更是系统全面讲解影视知识,使青少年轻松学会。
  • 班主任培训教程

    班主任培训教程

    现在的一些青少年对他人缺乏爱心和责任感,是因为他们对爱缺乏理解。爱心是在为别人付出时培养的,付出的爱越多,得到爱的回报越多,懂得爱的含义也就越深刻。中学生充满激情,最容易受具体情境感染。因此,我们不断地创设回报“爱心”的具体情境,以引导学生去感受爱、理解爱。
  • 启发青少年的科学故事集——培养青少年科学精神的故事

    启发青少年的科学故事集——培养青少年科学精神的故事

    本书是献给尊重科学、学习科学,创造科学的青少年的一份礼物。过去培根说:“知识就是力量。”今天我们说:“科学就是力量。”科学是智慧的历程和结晶。从人类期盼的最高精神境界讲,朝朝暮暮沿着知识的历程,逐步通向科学的光辉圣殿,是许多有志于自我发展的青少年晶莹透明的梦想!
热门推荐
  • 一世三尊

    一世三尊

    他原本,是一个将别人炼药后剩下的药渣都视若珍宝的宗门内的最底层弟子,一次意外打扫炼药房的经历,让他的人生,彻底改变……
  • 感动心灵的精美散文

    感动心灵的精美散文

    书的力量是巨大的,它可以引导人的一生走向成功。正是基于此,我们编著了《中华阅读文库》,作为读者朋友面对现实生活的一面旗帜,来感召、激励人生,共同朝着美好的未来前进。人首先要认识自己,才可以认清世界。这些已经被中外智慧人士不断印证过了。他们的成功,正是因为有着矢志不移的追求;有着不可摧毁的意志;有着对痛苦等闲视之的心境。在一次次生活的坎坷与磨难中自我提升与超越,才使他们成就了自己,丰富了自己。
  • 神佛已死

    神佛已死

    等你死后,肉腐骨销,只剩一灵不昧,我叫你的名字,你敢答应么?
  • 悸动:倾国星语

    悸动:倾国星语

    【卷一】“第二十六届全球金影奖,最佳女主角获奖者,来自C国的,江青羽。”欢声雷动,上万粉丝的期待,史上最年轻,最有天赋的影后!可人却迟迟未见,这无疑给金影打了个巴掌。只见屏幕映出:金影颁奖仪式中断,请各位离场。”第二天,骇人的头条【新晋影后江青羽逝世,节哀】。
  • 杀手神偷,绝色毒妃逆天下

    杀手神偷,绝色毒妃逆天下

    一个天真单纯的女孩,只因为一场突如其来的噩耗,从此。天真?是什么东西?单纯?呵,有用么?单纯单纯,如果不是这个单纯,她如何会失去双亲?如何会成为这个人人喊打的小偷?!一心求死的她,以为终于如愿以偿了,结果,老天和她开了个玩笑。穿越就算了,但是为什么要穿越变成一个丫鬟?!丫鬟就算了,为什么主子还那么懦弱无能?!擦!你懦弱无能被人欺,为毛还要拉她一起被打!好吧,既然重生变成他的丫鬟,就大发慈悲帮他吧!(爽文,虐渣不虐男、女主!放心跳坑,绝不弃文!)
  • 重生之葡萄神帝

    重生之葡萄神帝

    前世,我天赋有限,一生只能达到神王之位,因一颗葡萄而陨落。今生,我重生为一颗小葡萄,本以为要荒废一生,却没想到今生的身份神秘且不说,葡萄之身更是天赋逆天。且看莫绝言如何解开身份之谜,如何以葡萄之身超过神尊之位,成就传说中的神帝之位!
  • 经年消夏录

    经年消夏录

    桃姒从来都不曾知道,那个她心里烦不胜烦的仇人,每次来她面前,打打杀杀来去匆匆,只是为了多看她一眼,后来...他死了。她也不知道,宫里最擅养花的湛青,满脸不耐烦丢给她的花束,耗费了他多少心力,后来...花死了。她还不知道,心里细细密密的痒和甩不掉的挂念是喜欢;想带上最完美的面具,却又想褪下所有的伪装,这一切的闹情绪,都因为爱情。不过...也幸好她不知道,这样,桃姒就还是桃姒,可消夏,却再也不似从前了。从那以后,看山,山是她的背景;看水,水是她的倒影。
  • 没完没了的穿越:王妃劫

    没完没了的穿越:王妃劫

    【轻松小白,不喜勿近】NND这种日子什么时候才能够完结了?生活就不能安定点吗?为什么总是在不停地穿越?两个月就要穿越一次,TMD还让不让人活啦?什么?要想结束这种生活就必须要用爱人的鲜血来祭奠体内的穿越药?这还有没有天理了?哎不过开心的是,好在在古代凌凌找到了乐趣,每一次穿越遇到的帅哥被改造成了现代的帅哥不说,就连古代的人也开始穿现代服饰,凌凌还被称作最美丽的设计师?
  • 快穿之炮灰攻略男神

    快穿之炮灰攻略男神

    古代杀手虞殃琴棋书画样样精通,作为一名杀手,她已习惯沉浮于各地,时而为花楼里的花魁,时而又为某府上的小妾等等,可后来她却死于自家主人的剑下,她不解也不屈,于是被某智障系统锁定开始了各个世界的任务,攻略男配或男主或反派,完成炮灰们的心愿~
  • 重生之荣耀之路

    重生之荣耀之路

    重生了,不追事业和爱情,一心只想在那个校园里陪着她安静的打打Dota,可是现实会让杨维如意吗?