标题:8B模型生成生物实验方案:步骤有序、剂量精准|ICLR 2026
正文:
Thoth团队提出了一种名为Thoth的科学推理模型,用于生成高质量的生物实验protocol。该模型由上海人工智能实验室、复旦大学和上海交通大学联合开发,解决了现有大模型在生成实验方案时常出现的步骤缺失、顺序混乱、参数错误等问题。相关论文已在ICLR 2026发表。
实验protocol的核心挑战
生命科学研究中的protocol不仅是说明文,更是实验执行蓝图,需满足三个关键要求:粒度适中、顺序正确、语义准确。例如,在剂量缩放任务中,若原protocol要求将5mL凝胶预混液与25µL APS、2.5µL TEMED混合,则缩放到1mL时,APS应为5µL,TEMED应为0.5µL。然而,现有模型常因语义错误导致不可靠结果。
数据基础:SciRecipe数据集
团队构建了SciRecipe数据集,包含约12K条高质量protocol,覆盖神经科学、分子生物学等27个领域。数据集涵盖实验总结、局部分析、信息检索、方案规划、异常处理等多种任务场景,形成完整的“理解—应用”闭环。
核心方法:Sketch-and-Fill与SCORE
Thoth采用Sketch-and-Fill推理范式,将protocol生成分为三阶段:think(分析目标)、key(生成结构化步骤)、orc(改写为自然语言)。此设计确保每一步骤的动作、对象和参数可被自动检查,避免遗漏关键细节。
此外,团队提出SCORE奖励机制,从步骤粒度、动作顺序和语义保真三个维度评估protocol的可执行性,而非单纯依赖文本相似度。SCORE还通过格式门控和一致性门控进一步提升生成质量。
训练策略:Knowledge-to-Action
Thoth采用三阶段训练策略:预训练学习实验知识,监督微调掌握结构化输出,强化学习优化实验可执行性。这种路径模拟了人类研究员的学习过程,逐步从知识积累过渡到行动能力。
实验结果:小模型胜过大模型
在SciRecipe-Eval基准测试中,Thoth在所有主要指标上取得SOTA表现,相比基座模型Qwen3-8B性能提升17.78%,甚至超越ChatGPT-4o 3.69%。其优势体现在实验步骤对齐、逻辑顺序和动作保真上。此外,Thoth在HLE、LAB-Bench等科学基准上也表现出色,展现了良好的泛化能力。
未来展望
Thoth不仅回答“实验怎么做”,更尝试将科学知识转化为可检查、可复现、可执行的实验行动,推动AI从文献问答工具迈向实验复现助手和自动化实验系统的核心模块。
论文链接:https://arxiv.org/abs/2510.15600
代码链接:https://github.com/InternScience/Thoth
Thoth模型API:https://scphub.intern-ai.org.cn/detail/19
-
2026-05-19 17:50:55 -
2026-05-19 17:49:48 -
2026-05-19 17:48:43