“化学研究的初级阶段好比交通方式中的‘步行’,随着技术手段升级,研究程度加深、效率变高,等于用上了自行车、摩托车、汽车。当引入人工智能,好比坐上火箭。最终必然‘量变引起质变’,带我们去以前去不了的地方。”在中国科学技术大学,精准智能化学重点实验室主任李震宇用这样一个比喻形容化学研究的变革。
“去以前去不了的地方”是李震宇和所在实验室团队孜孜不倦的科研追求。今年1月,中国科学院精准智能化学重点实验室正式获批建设,由近100位年轻人组成,除化学与材料科学专业的师生外,还包括计算机、人工智能、大数据等方向的研究人员,聚焦如何改变化学研究范式这一关键科学问题,形成集群和协同攻关优势。
纵观历史,化学研究由炼丹、炼金演变而来,人类衣食住行离不开化学物质。同时,作为基础科学的化学,也是多学科交叉的聚集点和出发点,化学研究在能源、环境、材料、生物医药等应用领域扮演日益重要的角色。
历经数百年科研攀登,如今,精准智能化学成为化学家的梦想,更是实现化学学科跨越式发展的契机。而以人工智能为代表的新技术会不会重新定义化学的未来,改变化学研究的面貌?新兴技术的双刃剑会对研究范式带来哪些冲击和影响,师生们又有哪些对策和新招?这些问题一直萦绕在科研工作者心中。
化学版GPT来了,激起科研范式变革浪花
在精准智能化学重点实验室中的机器化学家实验室,青年科研人员只需在控制大屏输入指令,两个动作灵活的机器人“小来”和“小福”就可以在几个操作台间穿梭,伸出机械手臂进行试剂配制。
中国科大化学与材料科学学院教授江俊团队开发了全球首个集阅读文献、设计实验、自主优化于一体,覆盖化学品开发全流程的机器化学家平台,从数百万的可能组合中找到全局最优解加快材料研发。业内专家认为,该成果引领化学研究朝着知识理解数字化、操作指令化、创制智能化的趋势前进,将对化学科学产生巨大影响。
江俊团队有近30位成员,大多是90后、95后,大家怀抱“做中国人自己的材料数据库”的科研梦想。在关键节点——建立数据库知识图谱时,团队曾吃了很多苦头:数据质量良莠不齐,无法进行高效检索,不得不投入大量人力物力为数据打上识别标签。
无奈和碰壁倒逼江俊提升研究效率,2014年,建立会思考的“化学大脑”的念头在江俊心中萌发。他找来人工智能、电子科技、数学、化学等专业方向人才,组成交叉学科背景的团队,将大数据和人工智能技术注入平台的计算大脑,建立理实交融的智能模型。历经8年探索,打造初代机器化学家“小来”。
值得一提的是,在高熵催化剂等实验中,“小来”可以从55万种可能的金属配比中找出全局最优解,将传统“试错法”实验所需的1400年科研周期缩短为5周。
论文阅读、机器人做实验、数据分析、优化筛选……当前,江俊团队科研全流程都有人工智能的贡献印记,今年年初,在多任务处理性能上实现升级的第二代机器化学家小福“诞生”。
如今,团队又自主研发了一款阅读了50万篇文献的化学领域聊天机器人程序Chem-GPT,它能够针对使用者提出的问题,给出从文献中学习到的可靠答案,从而驱动机器化学家做实验,助力化学品和新材料研发。
江俊分析,人工智能给化学研究带来如下改变:基于大语言模型,从文献、专利、教科书等数据源中挖掘化学数据,建立化学知识图谱,用于支持化学研究决策和创新;建立物质的结构、组分、制备工艺等因素与性质间的关系模型,用于指导新型的分子、材料、催化剂、药物等的设计与优化;结合人工智能技术帮助化学家自动设计实验方案、优化实验过程,并进行自动测量表征。
他谈道,对人工智能机器人平台而言,首要挑战是“如何赋予机器人物质级别的感知能力和对化学过程的预判能力”。这两个能力是让人工智能能够真正理解复杂物质世界、捕捉化学系统的本质特征规律的关键。在他的科研蓝图里,未来研发出模仿学习人类科学家创造力、具备“看”“闻”“听”“触”环境感知的“智慧科学家”,进而实现数据与智能驱动的化学研究新范式。
李震宇总结道,传统的研究范式深度依赖于“试错法”,效率低。公众对化学的认识停留在不环保、不经济、不安全等刻板印象,迫切需要提升化学研究的精准程度与效率,让公众对化学面貌有新的认识。而人工智能等先进技术,无疑有助于探索建立化学研究的精准化、智能化双驱动模式。
人工智能浪潮下,科研还需要坐“冷板凳”吗
当先进技术不断迭代应用,让人不禁思考,我们是否还需要“冷板凳”式的科研,反复试错的意义又在哪里?
近日,中国科学技术大学姚宏斌课题组、李震宇课题组与浙江工业大学陶新永课题组合作,基于双碳背景下电化学储能发展的新范式,设计开发出镧系金属卤化物基固态电解质新家族LixMyLnzCl3,在无任何电极修饰的情况下实现了室温可运行的全固态锂金属电池,成果于今年4月5日发表在《自然》(Nature)杂志上。
这一被业内专家称赞为电化学储能领域固态电解质材料新突破的背后,一群年轻人就饱尝“冷板凳”之苦。从湘潭大学材料科学与工程专业推免至中国科大读研的罗锦达是其中之一,进组3年,他从零基础“小白”成长为科研主力。
2021年2月,还在读大四的罗锦达抱着学习的心态来到中国科大做毕业设计,刚好赶上上述课题的萌芽状态。大四毕业后,没有毕业旅行和假期,他几乎每天都在实验室中度过。每位前辈都耐心解答这位准研一新生提出的每个问题,正是在这种尊重科研的氛围下,“跨界”应用化学方向的罗锦达,往研究中心地带快速成长靠拢。
由于对计算机编程感兴趣,罗锦达每天一有空就前往图书馆读论文、书籍。研究中,他和小伙伴每天晚上在实验室待到很晚,每人分别分析和复盘研究进展。此前,组内一位学长尝试用第一性原理计算来研究材料扩散性质,但由于没有考虑到材料尺寸效应以及界面的应力作用,结果和预期相反。
“因为实验原材料、环境天气等客观因素和操作不当、经验不足等主观原因,研究过程中遇到挫折是家常便饭,尤其是理论计算,有时花费大量时间精力,最后发现结果不尽人意。但不能因为一条路走不通,就否定大的科研方向,要不断总结原因。”罗锦达说。
那位学长毕业离组后,罗锦达接过关键的理论计算模拟任务,并调整思路,从零开始学习分子动力学知识。他尝试运用密度泛函理论、分子动力学模拟和键价位能等方法,来研究实验对象独特的结构和离子传导机制,从原子尺度更好地理解锂离子的扩散行为,对后续实验合成有很大的指导作用。
处理计算模拟数据时,罗锦达又化身“程序员”,自学编程语言python,他觉得,每天都专注解决一个新问题,这种生活开心且充实。
最终,团队根据计算机模拟结果,设计出常温条件下可以稳定存在的镧系金属氯化物,合成出相应的固态电解质。他们把研究数据录入合肥先进计算中心进行模拟分析,最终实现锂离子在空间里的快速传导。
“先进的技术可以帮助科研人员快速分析和处理知识、提取有用信息、找出规律和趋势。”在姚宏斌看来,有了先进的计算方法,未来计划引入人工智能机器学习,可以优化出更好的电解质体系,探索新的高性能固态电解质材料,实现更稳定的界面并适配到实际的电池中。
但他同时指出,科研的本质创新和发现,以及对问题深入思考和探索,这些过程往往需要反复试错和不断尝试。即使在数据处理方面已经有了成熟的技术工具,年轻人在做科研的数据积累阶段仍然需要坐“冷板凳”,这是帮助年轻人更好理解问题的必经之路。
李震宇持有相同看法。他观察到,人工智能擅长高通量的精准实验、大规模数据处理等能力,但并不具备人类的创造性和判断力等思维能力,无法创造出超越现有新颖化学思想的方法。因此,“冷板凳”有助于培养对化学有深刻理解和洞察力的人才。
据江俊课题组核心成员肖恒宇博士分析,年轻人在科研数据积累时,可以利用人工智能技术来加速数据生成、收集、整理,但在研究尚未深入的领域,缺乏经验的学生需要反复试错。
人和AI如何“打配合”,科研效果才能最优
采访过程中,很多师生提到了化学研究中“数据”的重要性——数据和技术相伴相生,人与技术的“合作关系”也离不开数据的支撑。
江俊团队的机器化学家自诞生之初就与海量文献数据打交道。“数据时代给我们带来新机遇,同时也带来不少难题。本质上说,智能来自对数据的学习,数据少,有用的知识就少,一些小数据对于化学研究来说珍贵稀疏,因此,做实验‘很贵’。”江俊说。
“现阶段大部分数据都是从文献中收集来的,而文献中的数据经常是被‘美化’过的理想数据。此外,标注数据需要大量人力物力,随着数据需求上升,这部分成本会越来越高。”江俊课题组博士生乔钦禹说。
还有部分师生谈及,由于现存研究数据来源多且杂,当高质量和低质量数据混在一起,人工智能很容易学到“错误的数据”,开头就错了,后面自然会影响效率甚至准确性。
算力算法的缺失也是现阶段痛点之一。
由于GPU算力不足,使得江俊团队的ChemGPT“跑不快”,训练迭代起来很慢。“人工智能大规模应用势不可挡,现有人工智能算力不足是亟待解决的问题。”江俊课题组的博士生冯毅也注意到类似问题。
“精准化学非常依赖实验数据的准确性。”李震宇告诉记者,改变现有痛点的可行路径是通过精准计算和精准制备,得到大量精准数据,从数据出发来得到高的化学智能。有了智能技术以后,再回过头来对化学反应、分子性质、材料性质进行做精准调控,形成完整的研究闭环。
乔钦禹也曾对二者的“分工”做过设想:低端、可重复的循环实验操作,交给人工智能、自动化等技术来完成,以完成数据积累;而分析、创新、纠错等操作交给人来做,例如总结规律,发明创造等。
李震宇提出,最佳合作模式应由人类提出科学问题和假设,人工智能设计实验、采集数据、构建模型并验证人的假说。同时,人类可以根据人工智能化学实验机器人提供的数据和反馈,调整和改进自己的化学思路和方法,共同完成更高水平的化学研究。
姚宏斌也期待,“希望整个范式更加精准化、智能化,通过人工智能自主学习和优化,可以针对复杂环境体系得到全局最优解,最终有望跳出原有的试错法框架。”
技术加持下,人类科学研究的边界在哪里
近年来,随着人工智能算法、大数据技术等“火爆”名词的出现,有关“人类能否拓展科学研究边界”的话题再度回归。
“物理学领域,人类能够探究到宇宙的起源和演化,但仍然无法解释暗物质和暗能量的本质;生命科学领域,我们已经能够破解基因密码,但无法完全理解生命的起源和演化;社会科学领域,我们能够通过大数据分析来研究人类行为和社会现象,但无法完全预测人类行为的复杂性和多样性……”姚宏斌说,先进技术为人类探究更深层次的科学问题提供更多可能性和机会。然而,科学探究的边界并不由技术的发展所决定,它同时被人类对自然界的认知和理解所限制着。
在他看来,当科学技术不断发展,人类可以更深入地探究自然界的奥秘,但科研工作者也需要不断拓展自身认知和理解,才能更好地理解和解释自然界的复杂和多样。
冯毅告诉记者,当发达的技术解放了科学家的双手,让他们有更多的时间去思考,激发更多创新性成果,大家对于科学的认知也就越深入,就会发现越来越多的问题和无法解释的现象可以继续探索。
乔钦禹也认为人类的科学探究没有边界。他说:“先进技术的出现,就是让我们不断地拓展边界。相应的,有关部门应该给予坐‘冷板凳’的年轻人更多物质上和精神上的支持。对知识的渴求,永远是人类前进的动力之一。”
江俊的观点是怀抱更开放的胸怀和心态去提升自我。他说:“现阶段的科研知识树已经无比庞大,没有人能看到全局,我们应该找到自己喜欢的叶面。在任何一个专业,在自身专业领域把知识脉络看清楚,精准、扎实掌握知识精髓。”
几年来,他学习了很多新知识,甚至试着向本科生学习弄清一些新问题,开组会时,他甚至插不上嘴,只提供方向上的指导。
肖恒宇觉得,如果科学探究的边界一词是指科学的前沿,那么科学研究本身就是在不断拓展科学的边界、加强人类对自然的认知过程;如果科学探究的边界一词是指人类科学不能超越的限制,该限制或许就代表人类目前所能观测到的自然现象的集合,当人类所创造的理论、预测的自然现象超越了这个集合之后,就无法证实或证伪理论,使得理论失去现实意义。
“当讨论话题回到原点,其实人工智能是典型的问题驱动学科,相关研究尚处于初级阶段。化学研究的体系是独特且复杂的,看似简单的化学反应,影响因素涉及分子结构、材料性质等。”李震宇呼吁,应该研发专门服务于精准化学研究的人工智能新算法,发展先进的理论计算与实验表征方法,细化到温度、压强、分子式等各种参数,必将大幅提升化学研究效率。
他进一步解释道:“科学研究本身就是在不断拓展边界、加强人类对自然的认知过程。精密的仪器、高性能的计算方法、人工智能等先进技术能够帮助人们更快、更好地进行科研探索,在可预见的将来加速扩大科学研究的边界。”
中青报·中青网记者 王海涵