课题进展过半,钮世辉几乎到了山穷水尽的地步——购买实验试剂的钱都快挤不出来了。租用的超级计算机公司来催尾款,他只能打哈哈:“我们这么大的项目,怎么可能欠你钱呢?”
那是在2021年11月,钮世辉时任北京林业大学生物科学与技术学院副教授,主要从事针叶树遗传育种方面的研究。这名85后学者和团队当时正在进行一个很多人眼中有些“疯狂”的计划——给我国重要的乡土针叶树种“中国松”绘制完整的基因图谱。
为了攻克这一难题,项目团队囊括了美国、瑞典在内6个国家11家单位的36名研究人员。
从科学层面而言,这并不是项容易的工作,已知的100种松树基因组大小的平均数与中位数均超过了25Gb(十亿碱基)。中国松基因组是人类基因组大小的9倍,是杨树和桉树的60倍。如果将中国松的基因组比作一本“天书”,钮世辉团队要做的是读取其中的每一个段落,再根据上下文重叠,要从2.6万亿个字母中挑出254亿个,推断正确的连接方式,拼成完整的一本书。然而这本书其中许多段落看起来几乎完全一样,文中还没有任何空格与标点符号。
这个项目的启动也是迫不得已。针叶树占据全球森林面积的39%,世界木材产量的45%来自针叶树。在我国,木材近年来对外依存度超过50%,而进口木材中超过70%属于针叶材。
“往北极走,你见到最后的高大乔木是针叶树。爬雪山,在雪线以下最后的高大乔木也是针叶树。”这些环境恶劣的地方,往往只有针叶树能去填补生态位,从而改善那里的土壤、水分、小气候,其他的被子植物才能随之扎根,因此它被誉为“先锋树种”。
然而,如此重要的树种,重要科研成果产出却出人意料得少,比如,仅以杨树为材料的国际期刊高水平论文产出就达到了针叶树的近20倍。对于大部分物种来说,基因组测序已经不再存在技术障碍,有数百种植物公布了全基因组图谱,“但一旦涉及针叶树,游戏规则就不一样了”。
相关研究受制于遗传信息资源匮乏,被难以完成的全基因组测序“卡了脖子”。在此之前,已有来自瑞典、美国、加拿大、俄罗斯等国家的13个团队,自2013年起不断尝试进行挪威云杉、白云杉、火炬松等国际重要针叶树种基因组的组装和注释,有的项目花费了数百万美元,但经过验证,其基因测序结果的连续性均不太理想。
这次,钮世辉试图成为领域内的“先锋”。
一个领域的寒冬
和钮世辉预想的一样,2019年,当他四处递交中国松基因组的项目申请时,毫无悬念地被各种科研管理部门“毙掉”了。
“我理解,一个比杨树难60倍的项目,全球十几个团队花了上亿元仍未解决,我说现在时机已经成熟,凭什么相信我一个小年轻啊?”钮世辉回想。
2010年进入北京林业大学林木遗传育种专业读博时,他的研究方向还是“热乎的”杨树转基因育种,临近毕业,有教授鼓励他转去研究针叶树。
“当时听了觉得针叶树真的太重要了,需要有人做。”钮世辉喜欢搞研究。
可这一选择险些断送了钮世辉的科研生涯。2018年6月,钮世辉留校任教的第一个聘期到期,面临考核,但他已有将近5年没有新的重要成果产出,发表的寥寥3篇SCI论文都是依靠他在博士期间的研究积累。
对于他的考核评价,考核组专门开会讨论。有领导说:“小钮不能不合格,他不合格就成笑话了,大家有目共睹,他对科研充满热情,而且这么努力,(是)整天不放假的人。”
他的努力是公认的。在华南农业大学读硕士时,他的研究对象是我国南方的一种油料作物麻风树。他几乎跑遍了南方的几个省份,晒得黢黑,在海南的繁育基地进行种源试验,从中筛选出最好的种源,大幅度提升了麻风树的产量。
到了博士阶段,转换到林木遗传育种方向需要从头学习分子生物学,他抱起相关书籍,每天早上8点半到实验室,晚上11点才离开,周六周日也是如此。用他的话说,读博的4年里,“去旁边五道口不超过10次”。
这种工作状态几乎保持到现在。同事眼中,他是“天生的科研工作者”。在他带的第一个研究生马晶晶印象里,钮世辉几乎全年都在办公室和实验室做科研,过年也很少回家。假期里,学生们养的树苗等实验材料,都靠他浇水照顾。
“大自然有个秘密,只等有人去发现它。而我最先发现了它,如果我不告诉你,全世界再也没有人知道这个秘密,这是很强的满足感。”钮世辉这样描述科研工作吸引他的地方。
参加工作的头几年,他眼睁睁看着大学里从事针叶树研究的同行越来越少,而其他树种研究工作做得如火如荼。
钮世辉坚信,“大雪压青松,青松挺且直”,坚持是有价值的,“得有人在这。如果没有针叶树,这里一直裸露,大风一刮把土都刮走了,环境是不会被改造好的。”生态系统中需要先锋树种,冷门领域也需要先锋研究者。
一个不被看好的项目
很长一段时间内,几乎没人看好这个项目,包括最重要的合作者之一,瑞典农业大学森林遗传学首席教授吴夏明。
作为针叶树种研究领域的国际知名专家,吴夏明曾长期对挪威云杉、欧洲赤松等树种开展遗传育种研究,发表了近百篇论文,被引用次数高达1000多次。
2017年年底,吴夏明受聘北京林业大学高精尖创新中心研究组PI(主要研究者),希望能为国内针叶树遗传改良尽些力。最初中国松基因组测序的想法并不被他看好。
相比中国松,他更希望完成杉木的测序与群体重测序,那是中国最重要的本土针叶树树种之一,也是中国最大的人工林树种。更重要的是,它的基因组大小不到中国松的一半,意味着成功的几率更大。
针叶林的研究天生就带“刺”。针叶树是“反模式物种”,不仅个体大小是模式植物拟南芥的十倍至近百倍,生命周期也是它的几百倍。
拟南芥、杨树、水稻、玉米等被子植物,已经具备成熟的研究体系,而且相互之间可以相互借鉴。但针叶树与被子植物在两亿年前就已经分化,差异太大了,针叶树既没有自己的研究体系,也很难借鉴被子植物的研究进展。
“聪明人不干这事儿。”钮世辉曾经测算过,如果对8个中国松的样品进行测序,用同样的研究经费,杨树样品能测440个,拟南芥样品能测1638个。很多研究因为经费限制根本没有办法开展,造成研究基础极其薄弱。
马晶晶在校时,实验试剂、测序费用,还有一次性的培养皿、移液枪头等耗材,实验室1个月就是好几万元的开销。
不少成熟的分子生物学研究工具,因为没有人在针叶树种上成功使用过,需要研究者重新摸索实验的每一个细节。
从2016年入学起,马晶晶仅从第一步提取针叶上的RNA遗传信息,就体会到比其他树种复杂。中国松针叶上布满了油脂,会产生很多次生代谢物,影响RNA的提取。为此,她尝试了很久,还去别的团队学习,“一些细节没有注意到就可能一无所获”。
钮世辉举例,降解植物细胞壁一般会用到4种酶,而每一种酶又有四五种型号,这在被子植物中已经有非常完善的体系,但在针叶树中,选用哪一种有效,用多少量……都需要反复尝试。
结果他发现,最有效的酶使用在中国松上,需要达到被子植物用量的20倍才能产生效果。使用植物激素处理时,在失败了很多次以后,他才发现中国松用量至少要达到被子植物的100倍才有效果。
“在捅破窗户纸之前,你很难预料差异到底有多大。”钮世辉说。
这个过程在钮世辉看来“费力不讨好”——技术似乎很成熟,却又没法直接运用,耗费很大精力把它改造成功了,在他人看来又没有什么创新性。
刚开始研究针叶树时,钮世辉曾到过人迹罕至的原始松林,高耸的松树密密麻麻,浓密的绿色包裹着整座山,仅有几缕阳光透下来,显得格外壮美。每到一个育种基地调研,他都会采回几个不同针叶树的球果,办公室和家里书柜上摆满了各种大小的松果。
但慢慢地,随着“干啥啥不成”,他和针叶树“相看两厌”,把球果都收了起来,吐槽“这玩意儿,难怪没人研究”。
一次孤注一掷地“画饼”
时间几乎是所有针叶树研究者的敌人。针叶树从小苗到开花结实通常要数年甚至二十几年,“生儿育女”的育种周期极其漫长。
如何缩短育种周期是每一个针叶树研究者的终极梦想。从转行研究针叶树以来,钮世辉时不时就会想到,自己退休以后,一个年轻人突然跑过来告诉他:“老师,感谢您花了一辈子将育种周期推进了一代,我们现在每两年就能干一轮了。”梦里的他“血压飙升250,一口老血喷10丈”。
吴夏明的加入让项目有了眉目,打动他的是钮世辉大量尚未公开发表的研究进展。那时,团队鉴定到一个与中国松年龄信号显著相关的基因模块,其中一个基因被称之为“针叶树年龄分子时钟”,年龄越大的松树中它的表达量就越高,可以很精确地判断松树的年龄。
这有望破解针叶树年龄的奥秘;然而,深入研究绕不开它的基因图谱。
我国现存的16个国家级油松良种基地,很多是钮世辉导师的导师、北京林业大学教授、林木遗传育种学家沈熙环在20世纪80年代主持建设的。这些良种基地汇集了当时全国范围内筛选收集的良种优树,“随着经济发展,很多地方的天然林都没有了,抢救下来了一批,以后再想干这个事就再也干不了。”
2019年以前,80多岁的沈熙环先生还跑遍了每一个基地,关注育种的最新进展。然而,近年来随着身体的变化,年逾九十的他不得不减少了外出的活动。
相比之下,在海南的南繁中心,研究人员的水稻1年可以繁殖3代。这让钮世辉感慨,这一年的工作换成针叶树便几乎超过了自己的整个职业生涯。必须改变现状,“如果世上需要这么一个搅局的年轻人出现,我希望那是我。”
随着第三代基因测序技术取得突破,钮世辉也意识到,技术发展已经积累到了转折点,自己有机会成为那个“搅局者”。“相当于原来的技术每次只能读几百个字母,现在可以一次读1万个字母。”他打比方。
但这位副教授彼时能调动的资源极其有限,经四处筹措,最初项目经费只有80余万元。而美国同期竞争项目,投入经费达500万美元,约合3000多万元人民币,瑞典的相关项目更是获得了高达1亿元的经费资助。
钮世辉决定先把项目启动再说,也没考虑能发表什么水平的论文。
他花了半年时间,考察和游说了七八家测序公司,给他们“画饼”:2005年,《科学》(Science)在创刊125年时,提出了125个最重要的前沿科学问题,其中第66个问题是:“为什么一些基因组很大,另一些则相当紧凑?”
无论从科学的重要性还是影响力来说,这都是一个重要的问题,而中国松的基因组项目就有望解决它。
“这个项目是有风险、有挑战的,但风险主要在我,只要你支持我把这个项目做成功,它就是个标杆,那是最好的广告。”钮世辉的话很有煽动性,“之后你们出去接任何项目,都可以告诉别人,中国松是我们做的,别的小项目算什么啊?”最终,一家测序公司答应以成本价格为其测序。
另一个需要解决的问题则是算力。“用办公室的台式机去计算,需要至少连续计算50年不关机。”他又瞄上了阿里云,又一通“画饼”,也打动了阿里云的工程师。
“他是非常容易能够让别人看到光的人。”马晶晶全程围观了钮世辉的“画饼”,在她看来,钮世辉就像一株松,扎根这一领域,用事实和对未来的展望来感染别人。
“松柏男神”,是身高183厘米的钮世辉在学生中的“雅号”,不过他更希望别人关注他的研究。
“实际上每个人都是理想主义者,只不过有时候被各种挫折慢慢磨平了,这种理想主义在某一刻可以被重新唤醒。”在钮世辉看来,这更是一次孤注一掷的冒险。项目并未获得专项资金支持,一旦失败,或者迟迟无法突破,这些成本很有可能压垮他。
一个巨大的基因组
和钮世辉一样站上悬崖的还有李江。
这位博士后2018年进入北京林业大学分子设计育种高精尖创新中心的博士后流动站。2020年年初,正在从事白桦转基因研究的他遭遇“飞来横祸”。由于突如其来的新冠疫情,李江无法返校,而他倾注了所有心血培育的白桦样本因此全部死掉。
此时的他即将面临博士后的中期考核,“没什么东西可以出一些好的成果了,差一点卷铺盖走人。”钮世辉便邀请他加入。
“超算的租用是按小时算钱的,每跑一天就要多花几千元钱,而且如此巨大的计算量,以前谁也没干过,谁也不知道它什么时候能算出来。一旦结果不好或中途崩溃,就前功尽弃了。”巨大的压力压在钮世辉身上,“整个人瘦了一圈”,李江回忆。
终于,在超级计算机运算了6个月时,阿里云的工程师在群里通报:“计算结果出来了!”
出乎意料的是,当时的群里显得有些安静。钮世辉顾不上在群里庆祝,他打开传来数据的链接,“感觉一下子稳了!”推算中,组装的连续性指标N50最理想情况应该可以达到500Kb,而计算出的结果达到了2.6Mb,是理想结果的5倍,“大家很兴奋,觉得这个项目没白干。”
这个总长度达25.4Gb的中国松基因组,完整呈现了它的12条染色体,这是世界上第一个染色体级别的松树基因组。
“基因组组装是最重要的一步,但事实上,如果想让它成为真正的实用级别的数据资源,组装只是最简单的第一步。”真正的挑战是详细地对其中每一个基因结构进行准确注释,相当于把这本写满254亿字母的天书打上空格与标点符号,分成有意义的单词和段落,同样是个艰巨的大工程。然而现实又给了钮世辉当头一棒。
“天书”中包含了大量“无用的废话”称为“内含子”,也有存在关键遗传信息的语句“外显子”,识别出外显子并不容易。
“针叶树当中的基因离谱到什么程度?如果没有其他生物学证据你很难相信它是一个基因。”钮世辉举例,“针叶树中的一个重要基因长736Kb,它的外显子总长度只有不足1Kb,相当于从中挑出千分之一有意义的部分。这实在很难让人相信,因为其他植物中这一比例是二分之一。”
这也让已有的基因结构注释程序失去了用武之地。他手动检查的一个长540Kb的基因,就被程序识别成41个完整的基因,“虽然根据经验它们看上去很像,但实际都是假的。”
“团队在过去10年积累的大量中国松基因表达数据成了关键突破口,世界上其他项目组不太可能在短时间内收集到如此广泛的样品。”最终,基于来自760个样本的RNA证据,钮世辉提出了一种完全基于RNA数据的基因注释策略,经过不同技术路线20轮的反复测试,最终将完整基因注释率从38%提升至92%。“这是一件具有里程碑意义的突破,我可以骄傲地说,它是真正可以用的”。
基因注释结果显示,针叶树基因组里存在着大量可自我复制的重复序列,称为转座元件,这是一种来自于古病毒的寄生性的序列片段,占据了针叶树基因组含量的70%-80%。
用钮世辉的话说,“中国松是在垃圾堆里还能优雅地活着。它12对染色体里,相当于有9对完全是‘垃圾’,没有这些重复序列,松树的生长不会有任何影响。”
一段没有回程票的旅程
“有一些分析我们自己搞不定。”吴夏明等人协调了来自瑞典等国家的该领域顶尖科学家加入项目组,一共召开了54场线上技术讨论会,往来了678封工作邮件。
不同文化背景的研究者一起工作是一种别样的经历。“他们工作极其细致,就是节奏和国内相比有些慢。”钮世辉“吐槽”,“老外工作和生活分得很开,一到周末就找不着人了,还要度假,那是真的度假,完全联系不上。”
这让钮世辉有些不适应,“坦白讲,我们的工作节奏很乱,有时候半夜有了一些突破,我们就马上开个会,哪怕开十几分钟。”
心里的急迫事出有因。“根本睡不着,最恐怖的是,你不知道经费还能支持你走多远,只知道提前准备的子弹打光了。”经费捉襟见肘,他只能继续“画饼”,拉同领域的其他研究者“携资加入”。
“我们这个项目,已经做得这么好了,成果肯定是国际顶尖的,你也可以加入进来承担一部分研究,前提是带一点经费一起合作。实在不行给你打个折也行。”这名科学家此时又像是一个推销员。
某种意义上说,这是一段只有单程票的旅程,一如钮世辉最终得到的一个重要研究结论。他们发现,在物种形成初期中国松的基因组并没有那么庞大,但600万年前,可能发生了一次古老的地质事件,这些原本沉默的可自我复制的转座元件被意外激活。
它们大量复制,在基因组中随机跳跃,这对于整个基因组的稳定性来说是一种灾难,不仅会引发难以预料的突变风暴,还有可能造成整个基因组的崩溃。
为此,中国松演化出了强大的DNA监管系统,密切监视和抑制转座元件的活动,再一次“锁死”了它们,这种“锁死”很有可能同时抑制了这些重复序列的清除。“就像用一个碗扣住了马蜂窝,虽然暂时解除了危险,但再也不敢放手,也保护了它们。”他形容。
虽然大部分转座元件都再次沉默下来,但总有漏网之鱼,总体而言,它们仍然在持续缓慢地扩张,“虽然速度很慢,但这就像一道经典的小学数学题:一个水池,一边往里放水,一边向外排水,多久水池能排干?”
在针叶树中,转座元件的清除速度低于其扩张速度,是造成针叶树基因组巨大性的根本原因,导致中国松基因组的进化方向是一直膨胀下去,没有回程票。这在一定程度上回答了《科学》提出的66号问题。
2022年1月,他们的成果正式以《中国松基因组和甲基化组揭示了针叶树关键特征演化》为题发表在国际顶级学术期刊《细胞》(Cell)上,这是该期刊创刊以来发表的第一篇裸子植物研究论文。至此,整个项目只花费了220多万元,远低于国际同类项目。
令钮世辉意外的是,论文的审稿意见中,审稿人用“详尽、透彻”等词语形容了他们的研究,并评价道:“他们开创性的工作表明,目前已知最大的基因组的从头组装现在已经变得可行。”
这一进展引起了林学研究领域的广泛关注,入选了中国林学会评选的“2021年林草科技十件大事”,此后陆续入选“十三五期间林草科技十大进展”,以及《植物学报》评选的30项“2021年中国植物科学重要研究进展”等。
去年,钮世辉也成功晋升为教授。他熬了过来,在困难和逆境中,松树给了他精神上的支持。这是写在松树的基因中的,前述研究发现,松树基因复制带来的基因冗余性赋予了针叶树更强的适应性,其中包括了抗逆性相关基因的大量积累,为针叶树卓越的抗逆性提供了遗传基础。
一张热起来的“冷板凳”
像“先锋”的针叶树改善局地生态一样,坐了8年,钮世辉把“冷板凳”焐热了。
他们组装的中国松超大基因组数据,已经完整地提交在中美两国的国家基因库里,目前还在不断更新,即将发布更准确的2.0版本。
数据发布1年半以来,国内外很多针叶树研究者都开始利用这个平台和数据开展研究,“并不限于中国松,是所有的针叶树研究。大家对一个高质量的遗传信息参考早就望眼欲穿了”。
这一成果显著降低了这一领域的研究门槛,让更多的人敢于参与进来。基于此,加速育种周期,让树木早点开花结实;抑制行道树的开花结实,减少对其花粉过敏的问题……这些以往应用在其他树种上的技术,未来也有望在针叶树上实现。
钮世辉的突破直接推动了国内针叶树研究进入“后基因组时代”。他希望更多的研究者能进入针叶树的研究领域,让研究者能相互分担试错的成本,“试错的努力是别人都看不见的,但会消耗大量的精力,别人只看到你的成功。”平均下来,钮世辉每尝试4个方向的探索,才有1个能够有所进展。
“功成不必在我,功成必定有我。”在钮世辉看来,科学研究厉害的地方在于,只要有人取得了突破,就能以文献的方式记录下来,每一点进步都不白费,后人的进步都是站在前人的基础上再发展。
但对于坐在“冷板凳”上的研究者,他还是希望政策能给予更多的支持。“冷板凳”之所以冷,就是因为它失败的几率会更大。
因此,要避免“板凳还没坐热就被抽走了”。一旦科研人员被各种“非升即走”和考核束缚住,为了应付考核,“做事业”就只能沦为“做项目”。但是如果要把科学研究当作事业,就要选择真问题。“这就需要‘冷’板凳上有人在坚持,如果长期没人坐,外面的人就慌了,更不敢来了。后面的人再想坐,就要从头再来,板凳更冷了,陷入恶性循环。”
钮世辉承认,也许10年、20年才能把一个板凳慢慢坐热,也许10个人里面只有1个能最终成功,“在冷门领域坚持下来的,都是英雄,这是属于科学家的英雄主义。”
一个解决难题的人
钮世辉正在寻找自己扎根的下一片土壤。最新的目标是松树松材线虫病的发病机理。这是全球森林生态系统中最具危险性、毁灭性的森林病害,被称为“松树的癌症”。至今我国已有几亿株松树因松材线虫病死亡。
不过,松材线虫不能自己传播扩散,必须依赖媒介昆虫天牛在取食嫩枝树皮的时候,将体内携带的松材线虫传入健康松树体内。钮世辉介绍,“这种虫子3天繁殖1代,刚传入我国时气温低于10℃它就无法繁殖,短短40年,它已经在东北-20℃的林区被发现了。”目前,这种病害还在持续北扩西进。国家林业和草原局最新公布的松材线虫病疫区达到了701个县,而2018年这一数字是316个。
“这是国之大事,我怕再不研究这个问题,几十年后我的研究对象就没了。”钮世辉说。
钮世辉一心扑在科研上,妻子难得和他见一面。她是一名社科领域的研究者,平日里也很忙。每当钮世辉遇到困难时,她就“画大饼”——“我相信你肯定行”,而当钮世辉取得了一些成就,她就马上“泼冷水”,告诫他不要膨胀,“你不是个聪明的人,你只不过比别人更努力,现在终于有了好的机会,你一定要抓住。”
更多时候,她给钮世辉的是默默支持。以往钮世辉给自己定的闹钟是晚上11点提醒自己下班,现在改到了晚上9:45,“不过很多时候还是顺手就关掉了闹钟。”周五晚上是两人约好的“fish day”,钮世辉会早早回家,为妻子做爱吃的鱼。
做科学研究深深地吸引着钮世辉。他觉得看电影打游戏还没有读文献有意思,“每解决一个问题,大脑里的奖赏机制也在奖赏你。”
课题组的研究生也都成了实验室的“钉子户”。每当有人联系想要报考他的研究生,钮世辉都会回一封邮件“劝退”,大意是针叶树研究非常困难,成果产出很慢,要慎重地去对待这件事,“只要努力,我们肯定能产出好的成果,但跟杨树比我们就是要慢一些。”
等学生进了课题组,钮世辉从不要求学生打卡,同样用他最擅长的“画饼”:“做出它来,你就是佼佼者,站在国际最前沿。”
马晶晶印象里,课题组师弟师妹们就和松树一样,充满了韧劲,“哪怕实验失败了很多次,但是大家都不会说不做了,要退学或者是要换方向。尽管几乎每个人都找钮老师哭过。”
“什么是科学家?就是让难的问题变简单的人。”钮世辉说。
“为什么松树的叶子一年四季都不落,是什么机理让它是常绿的?为什么松树一定是在春天开花,不在秋天开花?为什么松树有一些枝条上会开花,但是有的枝条上面就会长针叶?松树怎么知道它哪个枝条要长花,哪个枝条长针叶?”直到今天,马晶晶还记得入学第一天,钮世辉给她提出的一串问题。
在钮世辉的电脑里,存放着一个问题列表,这个列表里现在有97个问题。这是他参加工作至今10年里攒下的,他笑称,近几年很可能是自己“智力的顶峰”,有时在路上走着走着,想到什么问题觉得重要就记下来,解决一个就把它标红。有的尝试过,目前技术还无法实现,他就让它静静躺在列表里,时不时看一看。目前,列表里已经有了10行红字。
在钮世辉的办公室,摆满松球的书桌后面,挂着导师陈晓阳书写的一幅字,“无山不绿,有水皆清,四时花香,万壑鸟鸣,替河山妆成锦绣,把国土绘成丹青”,这是我国第一任林业部部长梁希的寄语。
中青报·中青网记者 刘言