1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位 | 公众号 QbitAI

普林斯顿刘壮团队联合陈丹琦推出了一款开源强化学习(RL)框架——Vero,专攻通用视觉推理任务。这一框架能够胜任图表、科学、空间理解等多类开放视觉任务,并在30多项测试中达到8B参数规模视觉语言模型的SOTA表现。

以往,GPT、Gemini等顶级模型虽擅长视觉推理,但其背后的强化学习方案多为闭源,而开源方案通常仅适用于特定任务。Vero的出现填补了这一空白,证明学术环境下也能追赶工业界的领先成果。

打造全能型视觉推理模型常面临两大难题:一是开源RL方案训练的模型往往只能胜任单一任务;二是多任务训练容易导致模型混乱或退化。Vero通过三方面创新解决了这些问题。

首先,团队构建了一个名为Vero-600K的多样化数据集,包含来自59个数据集的60万高质量样本,覆盖图表OCR、STEM、空间动作、知识识别等六类任务。实验表明,在广泛均衡的数据集上进行RL训练,可避免单一任务训练导致的能力退化。

其次,Vero提出了“任务路由奖励机制”,设计多路奖励系统,根据任务类型自动将输出路由到相应验证器。例如,选择题评估选项正确性,数学题依赖数学校验,开放描述则引入大模型裁判评分。

最后,Vero采用单阶段强化学习,无需私有“Thinking”数据,仅凭高质量数据过滤、均衡任务混合和精确路由奖励,即可激发基础模型的通用视觉推理能力。实验显示,基于Vero训练的模型在30个基准测试中的23项超越了经过专门微调的Qwen3-VL-8B-Thinking。

研究团队还发现,广泛的数据覆盖是驱动视觉推理强化学习的关键。目前,Vero的所有数据、代码和模型均已开源。

项目由普林斯顿PLI实验室主导,通讯作者为Gabriel Sarch和Linrong Cai,陈丹琦参与其中。刘壮作为项目负责人,曾在清华姚班、加州大学伯克利分校深造,并与Meta FAIR及何恺明、LeCun等深度合作。

项目地址:https://vero-reasoning.github.io/

原文链接
本文链接:https://kx.umi6.com/article/34681.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
别只用AI写脚本了,现在AI打广告可真是城会玩了!
2026-04-10 11:00:33
港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026
2026-04-09 18:20:22
预告
2026-04-09 15:14:52
国家网信办:支持算法、框架、芯片等技术的自主创新 推进拟人化互动服务技术研发和相关标准建设
2026-04-10 18:30:25
华为云计划6月发布AI全系产品
2026-04-09 14:12:10
北京海淀发布八条OPC举措
2026-04-10 21:29:39
亚马逊CEO:2000亿美元AI投入绝非保守 是一生一遇的机遇
2026-04-10 16:22:14
奥特曼遭遇死亡威胁:凌晨家中被投燃烧瓶
2026-04-11 10:56:43
人工智能将纳入教师资格考试和认证内容
2026-04-10 11:05:07
多位演员发声强烈谴责AI侵权行为!杨紫、龚俊等工作室集体声明:立即删除下架 追责到底
2026-04-09 19:22:40
标注AI生成绝非免责条款!网民造谣立交桥倒塌被拘6天
2026-04-11 09:54:05
千问发布新一代旗舰AI眼镜 全渠道开启预约
2026-04-10 14:13:45
爆火GitHub!《生化危机》女主打造免费“AI记忆系统”
2026-04-09 14:09:03
24小时热文
更多
扫一扫体验小程序