1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位 | 公众号 QbitAI

普林斯顿刘壮团队联合陈丹琦推出了一款开源强化学习(RL)框架——Vero,专攻通用视觉推理任务。这一框架能够胜任图表、科学、空间理解等多类开放视觉任务,并在30多项测试中达到8B参数规模视觉语言模型的SOTA表现。

以往,GPT、Gemini等顶级模型虽擅长视觉推理,但其背后的强化学习方案多为闭源,而开源方案通常仅适用于特定任务。Vero的出现填补了这一空白,证明学术环境下也能追赶工业界的领先成果。

打造全能型视觉推理模型常面临两大难题:一是开源RL方案训练的模型往往只能胜任单一任务;二是多任务训练容易导致模型混乱或退化。Vero通过三方面创新解决了这些问题。

首先,团队构建了一个名为Vero-600K的多样化数据集,包含来自59个数据集的60万高质量样本,覆盖图表OCR、STEM、空间动作、知识识别等六类任务。实验表明,在广泛均衡的数据集上进行RL训练,可避免单一任务训练导致的能力退化。

其次,Vero提出了“任务路由奖励机制”,设计多路奖励系统,根据任务类型自动将输出路由到相应验证器。例如,选择题评估选项正确性,数学题依赖数学校验,开放描述则引入大模型裁判评分。

最后,Vero采用单阶段强化学习,无需私有“Thinking”数据,仅凭高质量数据过滤、均衡任务混合和精确路由奖励,即可激发基础模型的通用视觉推理能力。实验显示,基于Vero训练的模型在30个基准测试中的23项超越了经过专门微调的Qwen3-VL-8B-Thinking。

研究团队还发现,广泛的数据覆盖是驱动视觉推理强化学习的关键。目前,Vero的所有数据、代码和模型均已开源。

项目由普林斯顿PLI实验室主导,通讯作者为Gabriel Sarch和Linrong Cai,陈丹琦参与其中。刘壮作为项目负责人,曾在清华姚班、加州大学伯克利分校深造,并与Meta FAIR及何恺明、LeCun等深度合作。

项目地址:https://vero-reasoning.github.io/

原文链接
本文链接:https://kx.umi6.com/article/34681.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
于骞出席德国慕尼黑汽车论坛:世界模型+强化学习是通向物理AI的必经之路
2026-03-19 19:23:06
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026-03-20 12:25:37
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
波士顿动力 Spot 四足机器人学会连续后空翻,意外让行走姿态更像真实动物
2025-08-28 10:20:06
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
腾讯混元再引强将,庞天宇即将入职多模态模型团队负责强化学习前沿算法探索
2026-01-30 15:35:19
西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
2026-03-24 11:45:18
24小时热文
更多
扫一扫体验小程序