登陆注册
19084100000080

第80章 生物信息学(1)

生物信息学是20世纪60年代末及70年代以Margaret Dayofft 等分析蛋白质序列为标志,通过30多年的“默默而逐渐有所闻”的发展,尤其是人类基因组计划及后基因组计划的迫切需要导致现今广为人知的一门新兴学科。本章将论述有关生物信息学的基本概念,包括其定义及产生的背景,生物信息学的基本算法及生物信息学与临床信息学的融合。读完这章后,你应该知道下面这些问题的答案:

生物信息学的定义是什么?

促使生物信息学发展的内、外因及其相关的学科是什么?

生物信息学中常用的基本概念有哪些?

生物信息学的常用算法有哪几个?

生物信息学与临床信息学主要融合于哪几个基本方面?

18.1生物信息学概念

18.1.1生物信息学的定义

牛津词典于1978年收录“生物信息学”这一名词。由于生物信息学是一门正在兴起的热门学科,不同的研究工作者根据他们自己的理解对“生物信息学”下了不同的定义,但基本内容是相同的。这里我们选取美国国立卫生研究院(National Institute of Health,NIH)的定义:研究、开发及应用出相应的计算工具,这些工具能用于处理分析生物学、医学、行为或健康方面的数据,包括获取、储存、组织、归档、分析这些数据并将它们可视化。

这是NIH 比较严格的定义。而在牛津词典中,对生物信息学是这样描述的:生物信息学是正在概念化的基于分子(从物理化学角度而言)的生物学。它应用信息学技术(信息技术由应用数学、计算机科学及统计学分化而来)在大规模的水平上理解、组织与这些分子相关的信息。简言之,生物信息学是一门管理分子生物学信息的学科,它有许多实际应用。

结合NIH 的定义及牛津词典的解释,我们可知:生物信息学是应用数学及计算机技术处理生物分子信息的一门学科,是生物学与计算机、数学等相交而产生的一门新兴学科。

同样是计算机及数学在生物学中的应用的另一门学科计算生物学,它比生物信息学要略早,但其性质与内容与生物信息学有许多相似之处,NIH 对它的定义是:开发和应用数据分析、数学建模及计算模拟技术以用于研究生物学、行为学及社会系统的一门学科。

由它们的定义我们不难发现:生物信息学与计算生物学均是计算机、数学等学科在生物学中的应用的一门学科,而且它们都属新兴学科,发展速度很快,导致计算生物学中的许多建模方法往往为生物信息学所采用;反之,生物信息学的成果如序列比对等在计算生物学中也得到广泛应用。因此,计算生物学与生物信息学二者没有严格的界限,存在着一种“你中有我,我中有你”的状态。所以,国外许多科研院所将它们合二为一,统称之为:

计算生物学与生物信息学(Computational Biology and Bioinformatics,简称为CBB),如美国耶鲁大学的生物化学与生物物理学系、计算机科学系、医学信息学中心、麻醉生理系、遗传系、细胞分子生物学和发育生物学系于2005年联合推出了CBB 博士学位课程。

基于此,本书根据我们对计算生物学及生物信息学的理解,将CBB 定义为:以计算机为平台,利用数学(包括信息学、统计学)方法、化学方法、计算机科学方法等为手段探索生命科学奥秘的一门学科。

18.1.2生物信息学的产生与发展

1)生物信息学产生的外部环境

生物信息学产生的外部环境因素很多,可以说现有的自然科学对生物信息学的产生都起到了一定的推动作用。在这些众多的自然科学中,以计算机科学的推动作用最直接也最显着,因为生物信息学的平台就是计算机,离开计算机就不可能有生物信息学这门新学科诞生。

事实上,计算机科学的出现,使现有的自然科学与社会科学的所有学科产生了分化,如从“语言学”中分化出“计量语言学”;从“经济学”中分化出“计量经济学”;从“数学”中分化出“计算数学”;从“物理学”中分化出“计算物理学”;从“化学”中分化出“计算化学”,“化学计量学”等。很自然,生物学也分化出了“计算生物学”与“生物信息学”。在这里,计算机起的是“平台”作用。所以说计算机推动生物信息学的产生最直接也最显着。像生物学数据的管理、归档与分析等都需要计算机这个强大的工具来承担。

计算数学中的优秀算法为生物信息学提供了良好的“工具基础库”。最优化算法、稳马尔科夫链方法、Monte Carlo优化法、基因算法、动态规划法、人工神经网络算法等优秀数学算法为建立优秀的生物信息学方法提供了很好的保障。

化学为生物信息学提供了良好的“描述语言”环境。像分子生物学中的生物大分子的命名与描述均来自于化学。酶的催化反应,生物大分子构象等的描述主要来自于现代有机化学,如国际理论和应用化学联合会(International Union of Pure and Applied Chemistry,IUPAC)于1969年对蛋白质高级结构的不同层次作了界定。此外,计算化学的方法可以直接应用到生物信息学中。

2)生物信息学诞生的内部因素

计算机科学、数学及化学为生物信息学的产生及发展提供了良好的外部环境,但生命科学本身发展的需要是生物信息学“面世”的根本原因,主要表现在分子生物学诞生和“人类基因组计划”的提出、实施及完成这两方面。

(1)分子生物学的诞生。1866年,奥古斯丁教义僧人Gregor Mendel通过一系列实验,推断生物体中存在一种物质“genes”(基因)。从那时开始,人们一直认为是一种染色蛋白运载遗传信息。1944年,Avery和McCarty在活的有机体内证实脱氧核糖核酸(即DNA)是遗传物质的主要载体。到了1953年,James Watson和Francis Crick测定了DNA 的三维结构并据此发现了遗传物质的复制方法。这标志着分子生物学的诞生。此外,Edman 于1950年建立了蛋白质序列测定方法即Edman 降解法。尔后,英国科学家Sanger 等人于1953年完成了牛胰岛素的氨基酸序列测定;到了20世纪50年代末期,美国科学家Stanford Moore 等完成了牛胰核糖核酸酶的全序列分析。不久,人们对血红蛋白四个亚基作了全序列测定。此外,早在1858年,Kendrew 应用X 衍射分析技术获得了肌红蛋白(myoglobin)的三维结构。具体测定时,首先要获得衍射点,然后需要计算机进行复杂的运算。所有这些,标志着分子生物学由其萌芽到逐步成熟,同时也为生物信息学的诞生埋下了生根发芽的种子。

从那以后,有关生物大分子的序列与空间结构不断被人们所测定,相关的生物学数据累积也越来越多,导致应用人工方法很难准确、快速、有效地对它们进行分析,人们也就自然而然地想起了应用“效率高,运算速度快”的计算机。这样计算机也就自然而然地走进了生物学范畴。表现突出的是许多科学仪器的研制以生命科学为中心开展,这就导致生物学数据的累积以加速度的状态在向前发展。

(2)“人类基因组计划”的提出、实施及完成。生物信息学从最早的生物学“后台”、“配角”逐步走向生物学的“前台”,在生物学中扮演为“广大观众所喜爱的主角之一”的直接“催化剂”是“人类基因组计划”的提出、实施及完成。为此,这里有必要介绍一下人类基因组计划的基本情况。

人类基因组计划(Human Genome Project,HGP)与“曼哈顿”原子弹计划和“阿波罗”

登月计划并称为自然科学史上的“三大计划”,其核心内容是测定人类23个染色体的DNA 碱基序列。其提出、进展及最后完成的基本时间表如下:

1985年美国能源部的健康与环境研究所副所长Charles DeLisi 首先提出人类基因组计划。

1990年HGP 启动,目标是在15年内投资30亿美元完成该计划。

1996年在Bermuda,参与HGP 的成员同意将测定的数据向公众开放,即Bermuda 共识(Bermuda Principles)。

1998年Craig Ventner 成立公司,目标是在三年内完成序列测定,这就是后来的Celera公司。

1999年公共计划组回应Ventner 的挑战:修改其第一个草图完成时间的目标。

1999年12月第一个人类染色体(第22号)的序列测定完成并公布。

2000年6月,公共计划和Celera 领导人在白宫与时任总统的克林顿一起宣布HGP的完成;这是人类第一次宣布“人类基因组计划”完成。这次公布的是人类基因组草图,当时由于美国Celera 与公共计划为抢占第一发布时间展开激烈竞争,导致该基因草图存在许多错误和遗漏。但是它已经能解答很多秘密,比如它明确地告诉世人,地球上人与人之间99.99%的基因密码是相同的,人与人之间的差异仅为万分之一。

值得一提的是,1999年9月我国积极加入人类基因组研究计划,成为继美、英、日、德、法之后第六个国际人类基因组计划参与国,负责测定的区域位于人类3号染色体短臂上,该区域的遗传大小约占人类整个基因组的1%。2000年4月底,我国科学家出色地完成了任务。

2001年2月第一张人类基因草图在Nature和Science 杂志上发表。

2003年人类公布了人类基因组更为精细的图谱,其结果相对比较准确,陈述更为科学。国际人类基因组用了3年时间将2000年公布的草图进行纠错补漏,一点点地丰满起来,那些令人头疼的缝隙从原来的15万个减少到最后的341个。但是这一幅图仍然不是完美的,关键的问题是在1号染色体上依然还存在一些漏洞和不精确的地方。

2006年5月18日,英美科学家宣布完成了人类1号染色体的基因测序图,这表明人类最大和最后一个染色体的测序工作已经完成,历时16年的人类基因组计划终于画上了句号。事实上,1号染色体的测序工作难度很高。这是因为1号染色体是人类最大的染色体,约占人类整个基因组的8%,比最短的21号染色体长6倍,再加上测序工作又稍晚,所以直到现在才得以结束。然而1号染色体可能成为最有价值的染色体之一,因为它与癌症、帕金森氏症和老年痴呆症等大约350种疾病相关,所以1号染色体测序的完成对疾病的治疗具有巨大的潜在价值。

紧接着“人类基因组计划”后,一系列组学如功能基因组学、蛋白质组学、转录组学、代谢组学、信号转导网络等应运而生,所有这些都会产生海量的数据。

综上说明,生物信息学是生物学及其相关学科发展过程中,通过它们的有机组合而产生的一门“瓜熟蒂落”的生物学前沿分支学科。

18.2生物信息学研究范畴

简单地说,生物信息学的研究范畴包括两方面:数据库与相应的算法。两者之间的关系是:两者缺一不可,因此,只有两者有机地结合才能构成一门完整的生物信息学学科。

由于现代生物学中获取生物学数据的实验方法日益更新,人们获得海量的生物学数据。如何让广大生物学工作者有效地利用这些数据,最大限度地减少大量重复性的工作,早已为广大生物学工作者所关注。但光有数据共享显然是不够的,因为如何充分利用这些数据还取决于这些数据的“可操作性”,具体地就是计算机能顺利地读取和识别这些数据。如果不同人测定同一种生物大分子如DNA 序列所得到的数据以不同的格式存放,则人们就要编制出不同的相关软件来读取。这对从事生物信息学及其软件开发的人员来说无疑会增加许多重复性的工作,造成极大的人力资源浪费。为此,人们将描述同一类生物大分子同一类性质的数据以某种固定的格式保存在相应的计算机存储器中,这在生物信息学中被称之为生物大分子数据库。比如,蛋白质三维结构数据库,Genbank 核酸序列数据库等均以某种固定格式存储在计算机的存储器中。

数据库的格式代表数据库的形式,而其具体内容则是生物信息学及生物学工作者所关心的。因此,一个生物大分子数据库必须说明它的功能和特点。

同类推荐
  • 有感恩之心的孩子才有未来

    有感恩之心的孩子才有未来

    让孩子学会感恩、培养责任心的最佳成长读本。在感恩的情怀中体悟责任的真谛,在责任的担当中成就辉煌的未来。
  • 西南民族大学学科建设探索

    西南民族大学学科建设探索

    《西南民族大学学科建设探索:第六次教育教学思想大讨论文集》主要内容包括:学科专业建设探索、人才培养探索、教学改革探索、教学艺术探索、思想政治教育探索、学分制探索、教学管理探索、和谐校园探索、就业工作探索等。
  • 好学生是这样炼成的

    好学生是这样炼成的

    本书汇集了作者从一句话作文到日积月累的日记、感想和随笔的文集,记录了其18年来自由行走的生命轨迹,包括“发现自我”“聆听自然”“诗路花语”“触摸美丽”等十二章,内容没有泛泛而谈的学习秘诀或捷径,有的仅是作者在成长路上的感悟与思考。
  • 成功教师语言艺术

    成功教师语言艺术

    本书内容包括:教师语言的本质、教师语言基本功、教师语言的艺术、课堂上的语言艺术、教师语言的风格、教学语言的表达方法等。
  • 语文新课标必读-克雷洛夫寓言精选

    语文新课标必读-克雷洛夫寓言精选

    克雷洛夫寓言是俄国文学天才克雷洛夫最具独创性的作品,题材广泛,寓意深刻,具有极强的人民性和现实性。这些寓言精炼地运用人民的语言,通过多种表现形式,广阔地写出了俄罗斯生活的真实,形象地反映了俄罗斯民族的精神和智慧,丰富了俄罗斯的文学语言,被公认为俄语的最佳诠释者、有史以来最优秀的寓言之一。克雷洛夫是与伊索、拉·封丹齐名的世界三大寓言家之一,第一个深入人民生活、思想和语言的俄国古典作家,被称为俄国文学史上“最人民性的诗人”、“最民族和最通俗”的现实主义文学家。
热门推荐
  • 至秋离夏之倾国倾城

    至秋离夏之倾国倾城

    离夏从小生活在美国,能文能武,有着逆天的颜值,还有一个宠她上天的老外爹地。她知道自己是他的养女,他却尽他所能去疼她,离夏于他而言就是亲生女儿。为找寻小时候的好朋友,离夏独自一人来到黎夏学院,真相随之而来,她是选择逃离还是面对,在爱情面前,她能否跟随自己的心……
  • 植物也有感情:植物共生

    植物也有感情:植物共生

    像大多数动物一样,植物的感情世界也是非常复杂的,这种复杂关系不仅表现在植物跟植物之间,还表现在植物跟动物之间。它们有的可以见面互掐,有的可以将对方置于死地,比如:玫瑰不能见到木犀草,它们相见以后就会相互排挤;黄瓜跟西红柿在一起也会天天赌气。不过,植物之间,甚至植物跟动物之间,也可以成为相互扶持、相互帮助的生死之交,比如大豆跟蓖麻在一起能够互惠互利。而橡树跟松鼠同样会相互帮助。总之,植物的感情世界非常有趣,如果你想了解更多有关植物的感情故事,不妨阅读一下这本《青少年科普图书馆·植物也有感情:植物共生》。
  • 阳光下的少年.A

    阳光下的少年.A

    高中是人生的起步點,一個三流的學生的高中生活會有什麽事發生呢?〈這不是小說,只是小說式的隨筆。〉
  • 杀通天

    杀通天

    你认为我成为鬼武者变强是错的,而你修炼战灵成为强者才是正统,但当你被我击败倒下的时候,你的这些认为都早已瞬间支离破碎了,我要改变这个世界不是因为我强,而是这世界本就是错的。——南宫安因为预言而被遗弃,因为遗弃而实现了预言,强者之路,重在一往无前,南宫安,一个改变世界主流的男人。
  • 星蕴传说

    星蕴传说

    古老的大陆,位面交汇,万族鼎立,群山荟萃,在这无尽的世界中,演绎了无数令人向往的传奇,殿堂,丹药,禁术,星蕴,惊雷榜,看被称为废物的少年如何撕开天幕,如何傲视天下,如何手持长枪,撕裂天间!
  • 末世之鸿蒙剑帝

    末世之鸿蒙剑帝

    鴻蒙乃混沌起源,一道鴻蒙紫氣便能打造出一名聖人,那如果有着十道,千道,萬道鴻蒙紫氣呢?且看主角帶着萬界至寶一鴻蒙劍典縱橫未日!
  • 重生之天才医女

    重生之天才医女

    萧若情,现代中医世家的天才,从小跟在爷爷身边学习中医,等她27岁的时候已经青出于蓝而胜于蓝,只是当她的事业刚起步的时候,却因一次意外穿到了一个她未知的世界!萧若情,自小与母亲和哥哥萧云相依为命,是个古武天才,却在一次练武的时候走火入魔,香消玉殒了!
  • 苍天仙泪

    苍天仙泪

    主人公胡清,原本生活在一个安静平凡的小镇里。却不知道其父母曾经在这片大陆的叱诧风云而引来仇家的报复,但是其父母的真心期望是胡清能平平安安的活下去,而不是为他们报仇··········且看胡清是怎么样一步一步走完报仇的道路,登上整个世界的巅峰。本人第一次,不好的地方直接指出,骂本人可以,但至少得给个缺点再骂哈。
  • 封仙传

    封仙传

    传统道教修真境界分为四大境界,分别是炼精化气(筑基、开光、融合)、炼气化神(心动、金丹、元婴)、炼神还虚(出窍、分神、合体)以及炼虚合道(洞虚、大乘、渡劫)。合道成仙后开始找寻记忆及了却因果,做到无漏之光。达到混元大罗金仙(圣人)开始新的旅途,穿梭古今外来,超越宇宙生死轮回,成就无上至高神。修真修的是感觉,修仙修的是更高级的感觉,感觉融为一体之后的新的力量诞生,那种名为超越之力的究极之感。
  • 重生之纵横游戏时代

    重生之纵横游戏时代

    玩了三天三夜英雄联盟的潘兴,来到了一个全民可以进出游戏世界的未来。在这里,英雄联盟,穿越火线,魔兽世界,地下城与勇士,奇迹,传奇,大话西游,仙剑,暗黑破坏神,拳皇、刺客信条等等各式游戏变成了真实的世界。各大国在里面疯狂赚取各种资源。拉克丝,劳拉,颜如玉,林月如,不知火舞这些曾经的游戏女神都将真实存在,如果对方愿意,还可以带回现实世界。人类不仅可以在游戏世界里变强,还可以在里面成就帝皇霸业。当然了,如果你在游戏世界死亡,那就是真的死了。但成就这一切的游戏岛,真的就是为了全人类吗?(本书不是无限流,本书不是无限流,本书不是无限流重要的事情说三遍)