华东师大ChemGPT 1.0来了!

华东师范大学  |  2023-12-31

华东师大推出化学领域大模型ChemGPT 1.0


化学专业知识

化学逆合成推理

生物医疗常识

身边的AI化学家来啦!

华东师大推出

化学领域大模型ChemGPT 1.0

为人工智能时代的

分子智造提供了新工具




发布会现场


在2023国际产学研用合作会议(上海)分子科学与生命健康论坛上,华东师大发布ChemGPT 1.0,这标志着人工智能与分子科学的结合取得重要进展。

在上海市教委的大力支持下,华东师范大学于2021年成立了分子智造上海市前沿科学研究基地,由化学与分子工程学院和计算机科学与技术学院组建了联合研发团队,开展了AI4ChemicalScience的探索,致力于人工智能驱动的化学研究,将机器学习技术与化学合成相结合,以提高合成的效率和精度。

两年来,研究团队通过深入研究化学性质数据库、创新性引入物理描述符以及全新泛函CF22D的开发,成功构建了ChemGPT 1.0,为人工智能时代的分子智造提供了新工具。

上海市教委副主任孙真荣、华东师范大学副校长施国跃和研发团队负责人、化学与分子工程学院教授何晓等共同启动ChemGPT 1.0。

研究团队负责人何晓介绍ChemGPT 1.0


研发团队负责人、化学与分子工程学院教授何晓介绍,ChemGPT 1.0是一个集成了先进人工智能技术的化学合成工具。

ChemGPT 1.0具有三大亮点——

1高质量化学对话数据集的构建

ChemGPT 1.0背后有着超强大的数据集。

据透露,ChemGPT 1.0整合了超过39万条高质量对话数据,其中包括734种化学性质问答类数据、11679种科学类(含化学)问答类数据和658种化学类问答类数据,以及超过一万条维基百科词条,转化成了超过207万条的问题数据集。

这一数据集的构建,是基于对化学领域专业知识的深入理解和广泛收集,旨在提供一个全面、准确的化学知识问答平台。



2化合物逆合成数据库的创建

针对化合物逆合成的难题,团队通过数据拼接、叠加、加权和合成方式筛选,构建了一个全新的逆合成数据库。

该数据库规模宏大,且具有高质量的标注数据,提升了模型的准确性和可靠性。通过更好的数据平衡,显著提高了模型对各类反应的预测能力。在USPTO-50K测试任务中,经过新数据集训练的大模型ChemGPT 达到了74.4%预测精度,位列第一。




3对话模型和逆合成模型的创新改进


ChemGPT 1.0的对话模型和逆合成模型分别基于ChatGLM和LLaMA模型。


通过多模型多模块融合技术的实施,使得ChemGPT 1.0无需安装任何插件,就能支持化学专业知识、化学逆合成、生物医药以及通用领域的知识问答。

它还能支持自动上网查资料,帮助模型返回高质量的实时回答,甚至具备绘画功能。

在此基础上,华东师范大学的研究团队还成功完成了自动化学合成反应技术体系的整体构建和框架设计。

特别值得一提的是,以微流控芯片为基础的化学合成实验,显著缩短了原本的反应时间,最高可节约时间达80%。

由AI化学家—“小华”驱动的微缩合成工厂,实现了化合物的自动化合成,这不仅在化学合成领域带来了革命性的变化,也体现了人工智能在生物医药领域的巨大潜力。

ChemGPT 1.0是华东师大在AI4Science领域的又一重要成果,研发团队将在此基础上,进一步优化提升拓展功能,助推上海人工智能和生物医药重点领域加速向全球创新链、产业链、价值链的高端迈进。


责任编辑:曹竞