机器化学家诞生记

中国团队历时8年打造“最强化学大脑”

中国青年报  |  2022-10-17作者:中青报·中青网记者 王海涵 王磊

江俊教授团队部分成员。张大岗/摄


    在中国科学技术大学的机器化学家实验室,可以看见颇具科技感的一幕——一个体型“敦实”但动作灵活的机器人,在操作台之间穿梭,伸出机械手臂配制试剂。实验室另一边,年轻科研人员正输入指令,对机器人进行“隔空”控制。大部分情况下,这台机器人会自主思考实验的步骤和方案,像个不知疲惫的“小化学家”。

    这是中国科学技术大学化学物理系教授江俊团队的“作品”,该团队开发了全球首个集阅读文献、自主设计实验、覆盖材料开发全流程的机器化学家平台,从数以亿计的可能组合中找到最优解来加快材料研发。“实验数据经处理后,输入到平台独有的计算大脑中,产生理实交融的人工智能模型,帮助科研人员优化实验方案。”江俊说。

    江俊团队有近30位成员,其中多数是90后、95后。10月上旬,团队又添科研进展——通过开发和集成移动机器人、化学工作站、智能操作系统、科学数据库,他们研制出数据智能驱动的全流程机器化学家。

    该研究成果论文已在最新一期《国家科学评论》学术期刊发表。国际审稿人评价说,该成果的“机器人系统、工作站和智能化学大脑都是最先进的”“将对化学科学产生巨大影响”。业内专家认为,机器化学家的研究工作脱离了传统试错研究范式的限制,展现出“最强化学大脑”指导的智能新范式的巨大优势,引领化学研究朝着知识理解数字化、操作指令化、创制模板化的未来趋势前进。

    那么,一个“聪明”到会做化学实验的机器人是如何诞生的,其背后凝聚了年轻人怎样的努力和心血?中青报·中青网记者进行了采访。

机器化学家正在工作中。中青报·中青网记者 王海涵/摄

    “打造中国人自己的材料数据库”

    随着化学研究的对象日益复杂化、高维化,传统研究范式成本高、周期跨度长的问题日益突出。近年来,科技界逐渐意识到数据对于学术研究和产业创新发展的重要意义,而大数据科学与人工智能技术结合的手段,也在先进材料研发中崭露头角。

    团队核心成员肖恒宇是1995年生人,他本科就读于中国科学技术大学少年班学院,出于兴趣自学了人工智能。一次,他编写的一个智能程序出现问题,于是向时任班主任的江俊请教。江俊一针见血地指出,“算法没有问题,但算法依赖的实验数据过于片面”。

    江俊发现,一段时间以来,我国科研团队会将科研数据写进英文论文,在国外期刊上发表,但等到要引用数据时,还得额外花钱去买。

    “做中国人自己的材料数据库”,成了江俊的梦想。在他的影响下,肖恒宇等人一起踏上实现这个梦想的道路。

    肖恒宇的同学霍姚远、冯超,学的是数学和化学,喜欢研究数据。2014年开始,三人收集数据、挖掘文献、寻找架构,江俊提供原理指导和研究资源。2016年,他们搭建了第一代材料数据检索平台,但使用反馈不太理想,有老师抱怨“数据不准确”。

    肖恒宇等人意识到,数据不仅要多,还要优质。他们的数据库缺了最重要的一环——知识图谱,这导致数据质量良莠不齐,无法进行高效检索。

    建立知识图谱并非易事,同学们要用专业知识区分数据的关联性,为图像打上识别标签,让电脑知道每个数据背后的物理意义。

    团队成员、博士生张百成记得,最初全靠几位同学自己“打标签”,没日没夜地标注了几个星期,大家读文献读得头昏脑涨,却只完成了任务量的1%,几近绝望。

    为此,江俊找到中国科大校团委,开展有奖读文献比赛,联合更多有专业背景的大学生参与。由此,他们产生了第一批高质量的标记数据。

    “众人拾柴火焰高,大数据时代,要融合众智、整合资源。”张百成说,利用这批数据训练智能算法,他们实现了第一代化学命名实体识别程序,后续的标注任务,可以先让计算机自动识别,再进行人工检验,极大提升了效率。

    最终,他们打磨出我国第一代材料科学知识图谱。2021年,团队用图谱赋予机器人“小来”科学思维,团队的自然语言处理技术也随之“鸟枪换炮”,机器自动阅读和识别的准确度提高到90%。

江俊教授团队部分成员。张大岗/摄

    “将数据变为实际生产力”

    2016年,肖恒宇参加互联网+创新创业大赛,获安徽省冠军、全国银奖。投资机构为他和团队提供第一笔创业资金。成立公司后,团队3次迭代知识图谱,建立了含9000万个化合物、1100万条化学反应路径的大规模材料数据库。团队还借此帮助一些科研单位解决技术难题。

    譬如,某航天企业发现组合发动机中的金属配件材料需要改进,尝试多种方案都未能实现。肖恒宇等人用数据平台模拟出燃烧流场、大涡流场,并找到记忆金属设计配方,这为该企业节省成本4300多万元。

    肖恒宇团队还迎来了意外之喜——他们在为该企业解决问题的过程中,收集了10万种合金演化结构数据和金属原子间相互作用能数据,这些反过来丰富和完善了他们已有的数据库平台体系。

    “以往做研究时,有人习惯将数值往自己想要的方向去调整,但是研究需要数据多样性,要记录偏见、有误差的数据。”江俊坚信,数据是科研和产业的共同语言,数据库平台就是连接科研与产业的桥梁,要产生更多高标准的数据反哺科研,将数据变为实际生产力。

    目前,该团队又建立了材料基因创新研究平台,建成亚洲最大的材料数据库平台——机数大材库。

    江俊介绍,机器化学家平台具有更强的化学智能和广泛的新材料开发能力,涵盖光催化与电催化材料、发光分子、光学薄膜材料等领域,适用范围将随平台升级和拓展继续扩大。

    “从不摆烂,从不应付交差”

    每周开组会时,江俊只需要提出希望机器人解决的问题,学生们就会自己讨论实施方案。设备没有底层驱动程序,学生们就会攻关智能化升级。再后来开会时,江俊只能坐在一旁听着,甚至插不上话。

    让他欣慰的是,几位有交叉学科背景的年轻在读博士,已经成长为团队“顶梁柱”:肖恒宇设计软件框架;张百成编写程序,让机器人读论文、提出科学假设、形成实验报告和方案;赵路远主攻电化学测试,负责烘干仪器、光谱仪等硬件的驱动程序开发。

    25岁的赵路远学电子科学技术出身。在她看来,克服科研难题主要靠毅力。她和师弟曹嘉祺一起编写某驱动程序时,由于信息掌握不充足,无法准确理解调用接口,“我们反复联系仪器厂商和代理商,没有回应。我们决定自力更生。”

    3周时间,两人就像两个机器人,除了吃饭睡觉外,重复做了3000次发送信号、等待反馈、记录响应等尝试,一点一点逆向试出了底层控制逻辑,成功实现了对机器人的远程控制。

    “此时,仪器代理商主动找到我们,想要购买我们的驱动程序,我们觉得特别自豪。”赵路远说。

    2021年,团队信心满满地开始机器人的首次试运行,不料,化学设备单独运行正常,但参与系统联调时却无法使用。大家排查到半夜仍然没有头绪。

    这时,肖恒宇突然意识到化学设备和机械臂均使用了红外探测设备,可能会互相干扰。于是,他将机械臂换一个朝向,轻松解决了问题。

    “往后的开发调试中,不同领域的仪器设备,不同系统的代码协议间,都出现了类似的 ‘磨合’难题,而我们通过交叉学科思维,将它们逐一击破。”肖恒宇说。

    “一个方案受挫,大家不会摆烂,不会应付交差,而是反复测试,看看究竟哪个环节出了问题。”肖恒宇说,科研伙伴身上有着相似特质——对流程和技术的执着。完成任务时,团队成员总会想的比自己更多一点,不仅拿出方案,还会想好替代方案和若干发散选项。

    在他看来,从开发测试,到改进迭代,再到升级,一个实验分支由一人全部负责,每个人都成长为“全能人才”。肖恒宇说,全身心投入科研时,所有知识都有用武之地。他一直自学3D动画。课题组拍摄科普片时,他还包办了分镜头和脚本撰写。

    肖恒宇曾在宁夏回族自治区海原县一中支教。他利用闲置的传感器等仪器,搭建了两个小型实验室,带学生学化学、物理、信息,激发孩子们的科学兴趣。他一直有个梦想,希望带动更多年轻人合作研发更高水平、更具科研智慧的实验平台,让中国的智能化学闪耀世界。

责任编辑:邱晨辉,张蕾