科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
允中 发自 凹非寺
量子位 | 公众号 QbitAI
大模型会写论文,但它真的懂科研吗?很多时候,AI只是“扮演”科学家——引文献、列逻辑、排格式,看似有模有样,但深究后发现逻辑靠编、推导靠蒙,结论全凭运气。
最近,曾发布BabyVision多模态评测基准的UniPat AI推出了一款硬核开源项目:UniScientist。这个仅30B参数的小模型,却能实现“提出假设-收集证据-执行可复现推导-迭代验证”的科研闭环,在FrontierScience-Research等权威榜单上,性能匹敌甚至超越参数量大一个数量级的顶尖闭源模型。
为什么30B小模型能跑通科研闭环?
UniScientist的核心突破在于将AI建模为动态系统,通过自主构建的数据引擎,将开放式科研难题转化为“可验证的单元测试”。其关键逻辑如下:
-
数据瓶颈的解决:科研训练数据质量是瓶颈。纯人工生成数据昂贵且慢,纯合成数据缺乏真实性。UniScientist采用分工模式——模型负责生成多样化的研究问题和解法草案,人类专家负责验证和校验,确保数据既有广度又有精度。
-
形式化科学研究:UniScientist将科研过程建模为动态系统,基于“主动证据整合”和“模型溯因”两个核心操作。系统不断演化“证据状态”,分为可独立核验的外部证据和可形式化推导的内部证据,并通过循环提出假说、获取证据、更新假说,直至证据稳定,形成严谨的科研成果。
-
开放问题转为封闭测试:UniScientist提出“进化式多学科合成”数据引擎,将开放式科研问题分解为多个封闭的、可独立验证的Rubric检查项,强调原子性、一致性和区分度。当前数据集已包含4700+研究实例,覆盖50+学科和400+研究方向。
性能表现:小模型比肩顶级闭源系统
UniScientist引入了“成果聚合目标”,让模型学会融合多份候选成果,产出更稳健的研究结果。在多项权威评测中,UniScientist-30B表现出色:
- 在FrontierScience-Research上得分28.3,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)等模型;
- 在成果聚合模式下得分高达33.3;
- 在无工具条件下性能依然显著提升,表明模型自身推理能力得到增强。
下一步:迈向真实世界实验
目前,UniScientist的能力集中在可复现推理与仿真计算范围内,尚未实现对真实实验资源的编排。团队下一步计划扩展框架,支持对真实实验与计算基础设施的受控执行,进一步加速科学发现。
开源地址:https://github.com/UniPat-AI/UniScientist
Blog:https://unipat.ai/blog/UniScientist
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18