1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:8B模型生成生物实验方案:步骤有序、剂量精准|ICLR 2026

正文:
Thoth团队提出了一种名为Thoth的科学推理模型,用于生成高质量的生物实验protocol。该模型由上海人工智能实验室、复旦大学和上海交通大学联合开发,解决了现有大模型在生成实验方案时常出现的步骤缺失、顺序混乱、参数错误等问题。相关论文已在ICLR 2026发表。

实验protocol的核心挑战
生命科学研究中的protocol不仅是说明文,更是实验执行蓝图,需满足三个关键要求:粒度适中、顺序正确、语义准确。例如,在剂量缩放任务中,若原protocol要求将5mL凝胶预混液与25µL APS、2.5µL TEMED混合,则缩放到1mL时,APS应为5µL,TEMED应为0.5µL。然而,现有模型常因语义错误导致不可靠结果。

数据基础:SciRecipe数据集
团队构建了SciRecipe数据集,包含约12K条高质量protocol,覆盖神经科学、分子生物学等27个领域。数据集涵盖实验总结、局部分析、信息检索、方案规划、异常处理等多种任务场景,形成完整的“理解—应用”闭环。

核心方法:Sketch-and-Fill与SCORE
Thoth采用Sketch-and-Fill推理范式,将protocol生成分为三阶段:think(分析目标)、key(生成结构化步骤)、orc(改写为自然语言)。此设计确保每一步骤的动作、对象和参数可被自动检查,避免遗漏关键细节。

此外,团队提出SCORE奖励机制,从步骤粒度、动作顺序和语义保真三个维度评估protocol的可执行性,而非单纯依赖文本相似度。SCORE还通过格式门控和一致性门控进一步提升生成质量。

训练策略:Knowledge-to-Action
Thoth采用三阶段训练策略:预训练学习实验知识,监督微调掌握结构化输出,强化学习优化实验可执行性。这种路径模拟了人类研究员的学习过程,逐步从知识积累过渡到行动能力。

实验结果:小模型胜过大模型
在SciRecipe-Eval基准测试中,Thoth在所有主要指标上取得SOTA表现,相比基座模型Qwen3-8B性能提升17.78%,甚至超越ChatGPT-4o 3.69%。其优势体现在实验步骤对齐、逻辑顺序和动作保真上。此外,Thoth在HLE、LAB-Bench等科学基准上也表现出色,展现了良好的泛化能力。

未来展望
Thoth不仅回答“实验怎么做”,更尝试将科学知识转化为可检查、可复现、可执行的实验行动,推动AI从文献问答工具迈向实验复现助手和自动化实验系统的核心模块。

论文链接:https://arxiv.org/abs/2510.15600
代码链接:https://github.com/InternScience/Thoth
Thoth模型API:https://scphub.intern-ai.org.cn/detail/19

原文链接
本文链接:https://kx.umi6.com/article/35937.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
xAI推出“Skills”功能 赋予Grok跨对话的持久记忆能力
2026-05-19 08:21:42
为破解净值困局 部分“消费”基金转投科技
2026-05-18 07:24:37
代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026
2026-05-19 17:47:34
世界大学生超级计算机竞赛首设“英才对接”环节,搭建“赛场—职场”人才供需桥梁
2026-05-17 18:49:24
上海市经济信息化委主任汤文侃:抓住AI Coding发展新机遇
2026-05-18 11:35:45
中信证券:AI+能化可能是今年更合适的杠铃结构
2026-05-17 15:44:32
6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了
2026-05-17 12:35:21
抢先李飞飞!世界模型能多人联机玩FPS游戏了
2026-05-19 15:39:15
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”
2026-05-17 12:36:43
百度集团:第一季度智能云基础设施收入88亿元 同比增长79%
2026-05-18 17:51:57
必胜客强推AI配送致翻车 被头部加盟商起诉索赔超1亿美元
2026-05-19 07:19:24
中国电信推出试商用Token套餐
2026-05-17 17:50:08
国务院国资委:加快培养“AI+”复合型人才
2026-05-18 12:37:35
24小时热文
更多
扫一扫体验小程序