您的位置  > 商业新闻

化学实验指令生成模型ChemActor问世

  近日,上海交通大学人工智能研究院AI for  Science团队推出业内首个融合链式数据生成和分布差异筛选的实验指令生成框架大模型——ChemActor。该模型基于70亿参数模型进行微调训练,可在不依赖人工标注的前提下,自动完成从单分子输入到完整实验流程生成的全过程。


  据课题组相关负责人介绍,ChemActor可实现非结构化实验描述与结构化实验操作指令“双向翻译”,突破了化学实验自动化的“语言壁垒”,能够让AI真正“读懂实验、指导操作”。它并非只“能生成”,更能“写得真”。在两个公开化学实验数据集上,ChemActor相较现有方法在实验指令生成任务中性能提升平均超过10%,在语义对齐、逻辑合理性与结构还原等方面全面领先。


  ChemActor具备“读懂实验语言、写出操作指令”的闭环能力,其主要核心创新点有3个:一是首次以LLaMA-2-7B大语言模型为基座,构建了具备化学实验语言理解能力的专用大语言模型,能够高效生成结构化实验指令;二是首次提出链式大语言模型合成数据框架,集成了“反应—描述文本—操作指令”三元组数据,能够缓解标注数据稀缺难题,显著拓展了模型的泛化能力和化学反应空间;三是采用多轮语言模型循环评测机制,让多个大语言模型组成“化学专家委员会”,围绕生成实验指令和标注实验指令的一致性、合理性进行多轮打分与交互评议,有效提升了评估结果的可信度和语义精度。


  据悉,早在2023世界人工智能大会上,上海交通大学AI for  Science团队推出首个具备反应条件生成与“人在环路”反馈优化能力、能够指导实验探索的化学大模型——“白玉兰科学大模型1.0版”。今年早些时候,该团队又推出首个利用化学反应实验数据发现反应动力学方程的人工智能模型——KinFormer,旨在实现未知复杂系统的动力学方程预测,帮助化学家破解未知化学反应机理。未来,研究团队还将持续优化模型,推动更多大语言模型在真实化学实验场景中的应用,引领化学动力学研究迈向更智能、更自动化的新时代。

来源:中国化工报

热门文章