科研AI出了个狠角色：开源30B小模型，硬刚Gemini和Claude

2026-03-09 12:34:15

电子诗篇

发布在

科普

阅读：1304

科研AI出了个狠角色：开源30B小模型，硬刚Gemini和Claude

允中发自凹非寺
量子位 | 公众号 QbitAI

大模型会写论文，但它真的懂科研吗？很多时候，AI只是“扮演”科学家——引文献、列逻辑、排格式，看似有模有样，但深究后发现逻辑靠编、推导靠蒙，结论全凭运气。

最近，曾发布BabyVision多模态评测基准的UniPat AI推出了一款硬核开源项目：UniScientist。这个仅30B参数的小模型，却能实现“提出假设-收集证据-执行可复现推导-迭代验证”的科研闭环，在FrontierScience-Research等权威榜单上，性能匹敌甚至超越参数量大一个数量级的顶尖闭源模型。

为什么30B小模型能跑通科研闭环？

UniScientist的核心突破在于将AI建模为动态系统，通过自主构建的数据引擎，将开放式科研难题转化为“可验证的单元测试”。其关键逻辑如下：

数据瓶颈的解决：科研训练数据质量是瓶颈。纯人工生成数据昂贵且慢，纯合成数据缺乏真实性。UniScientist采用分工模式——模型负责生成多样化的研究问题和解法草案，人类专家负责验证和校验，确保数据既有广度又有精度。
形式化科学研究：UniScientist将科研过程建模为动态系统，基于“主动证据整合”和“模型溯因”两个核心操作。系统不断演化“证据状态”，分为可独立核验的外部证据和可形式化推导的内部证据，并通过循环提出假说、获取证据、更新假说，直至证据稳定，形成严谨的科研成果。
开放问题转为封闭测试：UniScientist提出“进化式多学科合成”数据引擎，将开放式科研问题分解为多个封闭的、可独立验证的Rubric检查项，强调原子性、一致性和区分度。当前数据集已包含4700+研究实例，覆盖50+学科和400+研究方向。

性能表现：小模型比肩顶级闭源系统

UniScientist引入了“成果聚合目标”，让模型学会融合多份候选成果，产出更稳健的研究结果。在多项权威评测中，UniScientist-30B表现出色：
- 在FrontierScience-Research上得分28.3，超越Claude Opus 4.5（17.5）、Gemini 3 Pro（12.4）等模型；
- 在成果聚合模式下得分高达33.3；
- 在无工具条件下性能依然显著提升，表明模型自身推理能力得到增强。