刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA
量子位 | 公众号 QbitAI
普林斯顿刘壮团队联合陈丹琦推出了一款开源强化学习(RL)框架——Vero,专攻通用视觉推理任务。这一框架能够胜任图表、科学、空间理解等多类开放视觉任务,并在30多项测试中达到8B参数规模视觉语言模型的SOTA表现。
以往,GPT、Gemini等顶级模型虽擅长视觉推理,但其背后的强化学习方案多为闭源,而开源方案通常仅适用于特定任务。Vero的出现填补了这一空白,证明学术环境下也能追赶工业界的领先成果。
打造全能型视觉推理模型常面临两大难题:一是开源RL方案训练的模型往往只能胜任单一任务;二是多任务训练容易导致模型混乱或退化。Vero通过三方面创新解决了这些问题。
首先,团队构建了一个名为Vero-600K的多样化数据集,包含来自59个数据集的60万高质量样本,覆盖图表OCR、STEM、空间动作、知识识别等六类任务。实验表明,在广泛均衡的数据集上进行RL训练,可避免单一任务训练导致的能力退化。
其次,Vero提出了“任务路由奖励机制”,设计多路奖励系统,根据任务类型自动将输出路由到相应验证器。例如,选择题评估选项正确性,数学题依赖数学校验,开放描述则引入大模型裁判评分。
最后,Vero采用单阶段强化学习,无需私有“Thinking”数据,仅凭高质量数据过滤、均衡任务混合和精确路由奖励,即可激发基础模型的通用视觉推理能力。实验显示,基于Vero训练的模型在30个基准测试中的23项超越了经过专门微调的Qwen3-VL-8B-Thinking。
研究团队还发现,广泛的数据覆盖是驱动视觉推理强化学习的关键。目前,Vero的所有数据、代码和模型均已开源。
项目由普林斯顿PLI实验室主导,通讯作者为Gabriel Sarch和Linrong Cai,陈丹琦参与其中。刘壮作为项目负责人,曾在清华姚班、加州大学伯克利分校深造,并与Meta FAIR及何恺明、LeCun等深度合作。
-
2026-04-11 19:15:44 -
2026-04-11 15:08:18 -
2026-04-11 15:07:11