注:从进入生信领域到现在,已经过去快8年了。生物信息学包含了我最喜欢的三门学科:生物学、计算机科学和数学。但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案。于是便有了这篇博客。
起源
据说在1970年,荷兰科学家Paulien Hogeweg和Ben Hesper最早在荷兰语中创造了"bioinformatica"一词,英语中的"bioinformatics" 在1978年首次被使用。这两位科学家当时使用该词来表示:
The study of information processes in biotic systems.
该定义中有两个关键词:生物系统(biotic systems)和信息过程(information processes)。但是这里的"信息过程"不太好理解。
此外,从该领域的著名期刊——"bioinformatics"期刊名称的变化也可以从另一个角度来考证"生物信息学"这个词的接受程度。"bioinformatics"创立于1985年,改名前的期刊名为:Computer Applications in the Biosciences (CABIOS)同时也是国际计算生物学会(the International Society for Computational Biology, ISCB)的会刊,在1998年改为现在的名字。
各个不同时期的定义 wiki
【定义1】首先看一下维基百科对生物信息学的解释:
Bioinformatics /ˌbaɪ.oʊˌɪnfərˈmætɪks/ (About this soundlisten) is an interdisciplinary field that develops methods and software tools for understanding biological data. As an interdisciplinary field of science, bioinformatics combines biology, computer science, information engineering, mathematics and statistics to analyze and interpret biological data. Bioinformatics has been used for in silico analyses of biological queries using mathematical and statistical techniques.
Bioinformatics and computational biology involve the analysis of biological data, particularly DNA, RNA, and protein sequences. The field of bioinformatics experienced explosive growth starting in the mid-1990s, driven largely by the Human Genome Project and by rapid advances in DNA sequencing technology.
The primary goal of bioinformatics is to increase the understanding of biological processes.
这里的定义强调交叉学科以及对生物学数据的理解,认为最主要的生物学数据是DNA、RNA和蛋白质的序列数据。并指出生物信息学最重要的目标是增加对生物过程的理解。
2000年
【定义2】下面是NIH Biomedical Information Science and Technology Initiative在2000年给出的定义:
Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.
该定义强调计算工具和方法(相当于软件和算法),以及数据的采集、存储、组织、存档、分析和可视化。该定义在2012年还被冷泉港实验室的一个下属机构在一篇介绍生物信息学的博客中引用过。
2001年【定义3】2001年,人类基因组计划还没有完成。下面是2001年发表的一篇标题为"What is bioinformatics? A proposed definition and overview of the field"的论文中的解释:
Bioinformatics is conceptualizing biology in terms of macromolecules (in the sense of physical-chemistry) and then applying “informatics” techniques (derived from disciplines such as applied maths, computer science, and statistics) to understand and organize the information associated with these molecules, on a large-scale.
Analyses in bioinformatics predominantly focus on three types of large datasets available in molecular biology: macromolecular structures, genome sequences, and the results of functional genomics experiments (eg expression data). Additional information includes the text of scientific papers and “relationship data” from metabolic pathways, taxonomy trees, and protein-protein interaction networks.
这里的定义强调生物大分子和数据的规模。认为生物学数据主要包括大分子的结构数据、基因组序列和功能基因组学实验数据(如表达数据等),此外还包括科学论文数据(可以进行文本挖掘)以及来自pathway等地方的关系数据(相互作用)。
该文章的作者从宽度(数据量的变化)和深度(不同生物学过程中的不同大分子)两个维度对生物信息学中包含的主要问题进行了分类:
图1:The Bioinformatics Spectrum, from
从宽度(信息学的角度)上来说,随着数据量的增加(从一条序列到多条序列),提出的问题也不一样,需要用到的算法和工具也不一样;从深度(物理学的角度)上来说,不同的生物学对象(DNA、蛋白质序列)在各个生物过程(蛋白质的折叠,发生于蛋白质表面的相互作用等)中执行着不同的功能。
该文章的作者还定义了"组学"的概念: