提起大数据,你肯定不会陌生,采用“多维空间中两个向量夹角的余弦公式”等各异的推荐类算法,音乐App总能跳出合你口味的歌曲,新闻App总能呈现你想了解的动态,购物网站总能提供你感兴趣的优惠……在生命科学领域,生物信息学方兴未艾,其工具性的作用日益凸显,被誉为“解读生命天书的慧眼”。
生物信息学是一门年轻的学科,伴随着人类基因组计划出现于上世纪90年代,它融合了生命科学和信息科学,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,目标就是要发展和利用先进的计算技术解决生物学难题,揭示生物的奥秘。
我说的有点儿云里雾里了,对不对?单纯的描述很枯燥,下面我结合实例谈谈。
生物信息学与精准医学
2015年1月,美国总统奥巴马在国情咨文中提出了“精准医学”计划,其实早在2011年美国医学界就提出了“精准医学”的概念,简言之就是对症下药,量体裁衣。精准医学离不开单核苷酸多态性(基因组上某位点单个核苷酸的变异,一般出现频率大于1%,被称为第三代遗传诊断标记)。它包括精准预防:2013年美国明星安吉丽娜·朱莉通过基因检测发现自己携带BRCA1基因突变,当了解到“有87%的患乳腺癌的风险,50%的卵巢癌风险”时,她选择接受双侧乳腺切除手术,两年后也切除了双侧卵巢来杜绝罹患癌症的风险。精准治疗是, 2012年一篇《Nature》文章指出,乳腺癌至少存在10种亚型,对症下药才不会事倍功半。因此,准确地找出与疾病有关的单核苷酸多态性需要大量的数据支持也离不开生物信息学的分析。
生物信息学与肠道微生物
100多年前,俄国免疫学家梅哥尼科夫(Metchnikoff)注意到保加利亚一些长寿部落的居民经常食用经发酵的酸奶。研究后他发现其中含多种乳酸菌。他以自己为实验对象,发现喝酸奶对身体有益,后来周围的人纷纷效仿,益生菌这个概念由此产生。现在超市里有着琳琅满目的酸奶,满屏的酸奶广告也不断强调 “益生菌”的概念,我们就来了解一下肠道内数以百万亿计的微生物吧。
最近的研究表明这些细菌与健康息息相关:某些肥胖人群中拟杆菌门细菌丰度较低而硬壁菌门细菌丰度较高,在动物实验中发现患I型糖尿病的大鼠肠道中拟杆菌门数量增加,另外益生菌双歧杆菌会随人年龄的增长逐渐减少。人们对肠道微生物还知之甚少,要深入了解肠道微生物如何与肥胖、糖尿病、心血管疾病等高发疾病关联,肠道微生物如何影响情绪,在“大人群时代”对肠道微生物基因组的高通量分析更是离不开生物信息学。
表现型=基因型+环境
人的性染色体为XX(女)和XY(男),色盲人群中男多于女是因为Y染色体上没有对应的等位基因;Y染色体比X染色体短,那XX染色体组成会不会比XY染色体组成多表达一些基因呢?答案是不会,一种长非编码RNA——Xist的存在会随机使XX中的一条甲基化而沉默,平衡XY染色体和XX染色体之间X连锁基因存在的剂量差别。一个有趣的现象是三色猫或者说玳瑁猫必定是母猫,这是因为控制毛色黄或黑的基因遵循伴性遗传,在甲基化作用下,母猫两条X染色体中的一条随机失活,表现为区域性的黄色或黑色,在白色基因(位于常染色体)的共同作用下就会出现三色猫;而Y染色体不含有控制颜色的基因,结果就是三色猫必定是母猫(三色公猫带有遗传缺陷),长知识吧!DNA的表观修饰有近20种,RNA的表观修饰更多,用生物信息学对这些表观修饰进行分析可以扩充“中心法则”的概念,也可以解释为什么表现型不单单由基因型决定,还和所处环境有关。
基因芯片使高通量分析成为可能,利用基因芯片和生物信息分析用药前后基因表达谱的变化可以发现有效的药物群,同时也能“老药新用”,发掘现存药物的宝藏。除了这些,生物信息学还在蛋白质结构预测、物种间的进化关系研究、新基因挖掘、非编码RNA等的研究方面有着独特的优势。
从观察学科到实验学科,现在生物学越来越重视定量。生物学、计算机科学和数理统计相得益彰,有了生物信息学这把利器,你可以开挂似的分析数据、玩儿数据,百尺竿头更进一步!
配图为视觉中国供图
魏伟佳(中科院大学博士生)