1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude

允中 发自 凹非寺
量子位 | 公众号 QbitAI

大模型会写论文,但它真的懂科研吗?很多时候,AI只是“扮演”科学家——引文献、列逻辑、排格式,看似有模有样,但深究后发现逻辑靠编、推导靠蒙,结论全凭运气。

最近,曾发布BabyVision多模态评测基准的UniPat AI推出了一款硬核开源项目:UniScientist。这个仅30B参数的小模型,却能实现“提出假设-收集证据-执行可复现推导-迭代验证”的科研闭环,在FrontierScience-Research等权威榜单上,性能匹敌甚至超越参数量大一个数量级的顶尖闭源模型。

为什么30B小模型能跑通科研闭环?

UniScientist的核心突破在于将AI建模为动态系统,通过自主构建的数据引擎,将开放式科研难题转化为“可验证的单元测试”。其关键逻辑如下:

  1. 数据瓶颈的解决:科研训练数据质量是瓶颈。纯人工生成数据昂贵且慢,纯合成数据缺乏真实性。UniScientist采用分工模式——模型负责生成多样化的研究问题和解法草案,人类专家负责验证和校验,确保数据既有广度又有精度。

  2. 形式化科学研究:UniScientist将科研过程建模为动态系统,基于“主动证据整合”和“模型溯因”两个核心操作。系统不断演化“证据状态”,分为可独立核验的外部证据和可形式化推导的内部证据,并通过循环提出假说、获取证据、更新假说,直至证据稳定,形成严谨的科研成果。

  3. 开放问题转为封闭测试:UniScientist提出“进化式多学科合成”数据引擎,将开放式科研问题分解为多个封闭的、可独立验证的Rubric检查项,强调原子性、一致性和区分度。当前数据集已包含4700+研究实例,覆盖50+学科和400+研究方向。

性能表现:小模型比肩顶级闭源系统

UniScientist引入了“成果聚合目标”,让模型学会融合多份候选成果,产出更稳健的研究结果。在多项权威评测中,UniScientist-30B表现出色:
- 在FrontierScience-Research上得分28.3,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)等模型;
- 在成果聚合模式下得分高达33.3;
- 在无工具条件下性能依然显著提升,表明模型自身推理能力得到增强。

下一步:迈向真实世界实验

目前,UniScientist的能力集中在可复现推理与仿真计算范围内,尚未实现对真实实验资源的编排。团队下一步计划扩展框架,支持对真实实验与计算基础设施的受控执行,进一步加速科学发现。

开源地址:https://github.com/UniPat-AI/UniScientist
Blog:https://unipat.ai/blog/UniScientist

原文链接
本文链接:https://kx.umi6.com/article/33522.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI生图新的王者诞生了!腾讯混元图像3.0登顶榜一
2025-10-05 17:24:12
宇树:开源机器人世界大模型!
2025-09-16 13:11:33
阿里达摩院首次开源具身智能“三大件”机器人上下文协议
2025-08-11 13:01:00
抢跑GPT-5,智谱开源新SOTA模型,一句话搞出能看视频、发弹幕的B站!
2025-07-29 00:21:11
谷歌前 CEO 施密特:大多数国家最终可能使用中国的 AI 模型
2025-11-12 16:13:53
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
2025-10-28 10:42:58
独家|智谱发布新一代旗舰模型GLM-5
2026-02-11 21:45:27
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
2025-08-11 16:03:42
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
2026-01-08 19:25:43
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
中国在开源 AI 模型市场首超美国,与 OpenAI 之“封闭”形成鲜明对比
2025-11-26 12:43:57
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
商汤开源 SenseNova-MARS,突破多模态搜索推理天花板
2026-01-30 18:41:28
24小时热文
更多
扫一扫体验小程序