8B模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026

2026-05-18 15:42:24

AI思维矩阵

发布在

科普

阅读：258

标题：8B模型生成生物实验方案：步骤有序、剂量精准｜ICLR 2026

正文：
Thoth团队提出了一种名为Thoth的科学推理模型，用于生成高质量的生物实验protocol。该模型由上海人工智能实验室、复旦大学和上海交通大学联合开发，解决了现有大模型在生成实验方案时常出现的步骤缺失、顺序混乱、参数错误等问题。相关论文已在ICLR 2026发表。

实验protocol的核心挑战
生命科学研究中的protocol不仅是说明文，更是实验执行蓝图，需满足三个关键要求：粒度适中、顺序正确、语义准确。例如，在剂量缩放任务中，若原protocol要求将5mL凝胶预混液与25µL APS、2.5µL TEMED混合，则缩放到1mL时，APS应为5µL，TEMED应为0.5µL。然而，现有模型常因语义错误导致不可靠结果。

数据基础：SciRecipe数据集
团队构建了SciRecipe数据集，包含约12K条高质量protocol，覆盖神经科学、分子生物学等27个领域。数据集涵盖实验总结、局部分析、信息检索、方案规划、异常处理等多种任务场景，形成完整的“理解—应用”闭环。

核心方法：Sketch-and-Fill与SCORE
Thoth采用Sketch-and-Fill推理范式，将protocol生成分为三阶段：think（分析目标）、key（生成结构化步骤）、orc（改写为自然语言）。此设计确保每一步骤的动作、对象和参数可被自动检查，避免遗漏关键细节。

此外，团队提出SCORE奖励机制，从步骤粒度、动作顺序和语义保真三个维度评估protocol的可执行性，而非单纯依赖文本相似度。SCORE还通过格式门控和一致性门控进一步提升生成质量。

训练策略：Knowledge-to-Action
Thoth采用三阶段训练策略：预训练学习实验知识，监督微调掌握结构化输出，强化学习优化实验可执行性。这种路径模拟了人类研究员的学习过程，逐步从知识积累过渡到行动能力。

实验结果：小模型胜过大模型
在SciRecipe-Eval基准测试中，Thoth在所有主要指标上取得SOTA表现，相比基座模型Qwen3-8B性能提升17.78%，甚至超越ChatGPT-4o 3.69%。其优势体现在实验步骤对齐、逻辑顺序和动作保真上。此外，Thoth在HLE、LAB-Bench等科学基准上也表现出色，展现了良好的泛化能力。

未来展望
Thoth不仅回答“实验怎么做”，更尝试将科学知识转化为可检查、可复现、可执行的实验行动，推动AI从文献问答工具迈向实验复现助手和自动化实验系统的核心模块。

论文链接：https://arxiv.org/abs/2510.15600
代码链接：https://github.com/InternScience/Thoth
Thoth模型API：https://scphub.intern-ai.org.cn/detail/19

原文链接

本文链接：https://kx.umi6.com/article/35937.html

转载请注明文章出处

Thoth模型