科研课题与实际应用脱节、缺乏大规模真实样本数据、计算资源不足等问题,已成为当前我国学术科研创新的主要阻碍因素,尤以信息及互联网领域最为突出——单纯的实验室环境,难以诞生出可大规模应用的技术,也难以有效推动技术的落地和产业的进步。
针对这一科研困境,百度近日发起“青年科学家培养计划”。作为百度开放研究计划系列举措之一,“青年科学家培养计划”将通过分享互联网领域最前沿技术课题、免费开放数据研究样本及云计算资源三大举措,帮助青年科学家更好地进行科研创新工作,解决中国信息领域最前端的技术和应用难题。
2011年度“中国计算机学会青年科学家奖”获得者、中国人民大学教授李翠平和其他两名优秀的科学家成为该计划的首批参与者。
1997年硕士毕业后,李翠平曾在清华同方从事数据库开发工作。2000年,她考入中国科学院计算所攻读博士学位,深入进行数据仓库、数据分析、数据挖掘方面的研究。博士毕业后,李翠平加入人大数据库研究团队,继续从事学术研究和教学工作。
李翠平在数据挖掘领域从事了近10年的研究。她首次扩展了空间数据库中不同数据点之间控制关系的概念,将其用于经济学框架下的商业分析,提出了控制关系分析的概念,并先后在国内外学术会议和期刊上发表论文30多篇。
由于数据挖掘研究经常需要涉及海量、分布式的数据处理环境,李翠平对百度向科研工作者免费开放的云计算平台很感兴趣。“能使用百度云计算平台,在上面做实验,对科研工作来说,是件很好的事。这样的校企联合,有助于让学术理论和实践结合得更紧密,能推动更多创新成果的诞生。”李翠平说。
不过,在李翠平看来,在数据挖掘领域做学术研究,资源问题相对还容易解决,最关键的是如何把科研探索与实践工作结合起来。“把理论运用到实践中去,解决现实中的难题,是每个科研工作者都在做的努力。做理论研究的人,往往缺少对实践中产生问题的把握。怎样把理论研究和真实的用户需求结合起来,是个非常重要的问题。”
她认为,唯有真正融入现实环境,才能了解真正的问题和需求,并从技术方面推动创新解决。因此,对学术研究来说,“百度这样的企业所提供的‘数据’和‘问题’是学术界很看重的两个方面”。
这也正是李翠平加入百度青年科学家开放研究计划的主要原因——后者拥有深厚的技术积累,每天直面和处理来自全球数十亿次的真实的海量用户需求。对于科研机构而言,这是一个蕴含着巨大能量的天然宝库。“像百度这样的互联网企业,用户有5亿多人,每天接受数十亿次的搜索请求,是一个非常适于学术研发的数据环境。通过百度的开放研究计划,学术界能够与百度强强联手,共同研究相关的技术与创新,这意味着,创造世界级尖端研究成果的可能性非常大。”
事实上,如何将理论与实践相结合,提升科技成果的产业转化率,不仅仅是困扰李翠平的问题,也是中国科研体系面临的普遍状况。全国政协副主席、中科院院士王志珍就曾指出,目前我国的科技成果转化率大约在25%左右,真正实现产业化的不足5%,与发达国家80%的转化率差距甚远。
“单纯的实验室环境,难以诞生可大规模应用的技术,也难以有效推动技术的落地和产业的进步,因为缺乏真实的、可用于支撑研究的大数据。致力于真实的问题、将理论与实践相结合、提升科技成果的产业转化率,是整个中国科研体系面临的普遍挑战。”中国计算机学会秘书长杜子德指出。
杜子德分析,拥有真实海量的数据资源、了解真实的用户需求是从事研究工作的必要条件。建有大规模云计算中心的百度,形成了业内得天独厚的研发环境。“通过开放研究计划,百度向学术界输送了前沿的技术课题、数据及云计算资源,将有力推动科学研究与企业实践相结合,对解决中国信息领域前沿的技术应用难题有重大意义。”
对于这一点,李翠平深表认同:“如果把实践和理论充分结合好了,我有信心,我们可以解决最前沿的科研难题。”
本报记者 丁先明