“虽然有很好的概念,虽然给我们展示了医疗体系未来的美好前景,但不论是组学检测还是大数据分析,都存在着一些巨大的障碍,所以我认为精准医学目前才刚刚起步,我们还有太多的事情要做。”12月8日,在北京举行的2016中国大数据技术大会上,中国科学院院士陈润生再三强调了这一点。
2015年1月20日,美国总统奥巴马提出了要开展精准医学的研究,这标志着以美国为代表的发达国家开始了精准医学研究。之后,在国家领导人的直接过问支持下,我国的精准医学研究随即展开,陈润生院士透露,精准医学重大专项已经立项,项目经费约为12亿元人民币。
精准医学是组学大数据在临床当中的应用
在大会主题演讲中,陈润生院士首先对精准医学进行了解释:“核心就是一句话,组学大数据在医学、特别是在临床医学当中的应用。”
组学大数据是指分子水平的数据,随着上世纪90年代遗传密码的破译,以遗传密码或者基因组为代表的大量分子水平的数据不断产生。陈润生院士是我国最早从事理论生物学和生物信息学研究的专家,他介绍说,目前组学数据的增速比任何已知的数据增速都快。
随着研究技术的发展,测一个人的遗传密码,现在已经变得非常简单和容易,花费六七千元人民币,三四天的时间就可以得到遗传密码,而遗传密码和某些疾病是高度相关的。华大基因董事长汪建曾预测,2017年测一套遗传密码的价格可能降到3000元人民币左右。
“近年来开展的分子水平信息用到医学特别是临床医学上,来提高临床诊断效率和治疗效率,实际上就促进了精准医学的应用。”但陈润生同时指出,组学数据是大数据,必须用特定的理论方法和技术对大数据进行挖掘才能获得有关用于临床方面的知识,所以可以说,精准医学是组学大数据在临床中的应用。
精准医学使医疗健康的概念发生本质变化
“精准医学可以使医疗健康的概念发生本质变化,从医疗健康体系以诊断治疗为主,转变到以健康保健为主。现在的医学都是以病人为对象,以诊断治疗为目的。随着精准医学的发展,我们可以通过对大数据的分析,在一个人没有病的时候,了解他的健康状况,预测他未来健康的发展,这种情况下我们医疗健康所面对的就不再是病人,而是全民,全体人。”
这种根本性的变化,必然会导致相应产业的发展。
那么精准医学会具体推动哪些产业的发展?陈润生提出了几点:精准医学可以推动海量生物样本库和海量数据库的发展;可以带动基因组序的数据规模,这个产业有人估计2018年可以达到117亿美元;可以得到很多新药物。此外,包括健康设施、健康从业人员在内的健康领域的大产业圈会有大发展,有人估计到2018年,这个大产业圈可能达到2000亿美元以上。
组学测量中存在着巨大的挑战和困难
关于发展精准医学所需的条件,陈润生认为至少具备两个条件,一是要搜集获取大量的组学数据,而这些组学数据必须经过大数据技术的深入挖掘,组学和大数据两大科学的交叉与融合;二是利用这些数据开展基础研究,搭建分子水平的信息和宏观疾病之间关联,发展生物信息学、生物网络、系统生物学等等。
不过,他强调,精准医学和现在的传统医学、影像学、生化学、医生的经验是相辅相成的,互相推动与互相促进,不能过度宣传精准医学的作用。不是说基因测序后什么都能解决了,必须与现在的技术紧密结合才能提高医疗的水平。
精准医学带来的机遇显而易见,但是曾经参加过人类基因组1%计划和水稻基因组工作草图研究,完成了我国第一个细菌完整基因组的组装及分析工作的陈润生非常客观冷静,他认为面临的困难和障碍同样巨大。
“组学测量中存在着巨大的挑战和困难。大家知道现在的精准医学是以遗传密码为依据的,可是当前我们对人类自身的遗传密码了解多少?”他给出了一串数据:每个人的遗传密码都有3乘10的9次方的数据,如果把这些字符打印出来,每页1000组,装订成书的话,大约有40层楼高。更为关键的是,“集全人类的智慧,我们只能读懂其中的3%,也就是编码蛋白质的部分;可是还有另外的97%是不编码蛋白质的,也是迄今为止我们读不懂的部分”。
“除了数据量大,目前进行的分析还很少,另外就是样品量少。”他举例说,比如研究肝癌,我们需要肝癌的病例,对于特定分型的肿瘤,能搜集两三百个样品就已经很不错了。但是数学体系需要建模,变量是上千甚至上万的,如果只有几百个样品是不能建模的。”
陈润生院士最后谈到了如何在全国范围内实现数据的有效共享:“我们不仅仅用组学数据,还用其他影像学的数据,比如核磁、CT,现在每个医院里都有数据,如果不能在全局层面进行数据共享,我们就是在大数据时代做小数据的工作,就失掉了大数据的背景和它的意义。”