刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

2026-04-11 09:51:56

小阳哥

发布在

科普

阅读：454

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

量子位 | 公众号 QbitAI

普林斯顿刘壮团队联合陈丹琦推出了一款开源强化学习（RL）框架——Vero，专攻通用视觉推理任务。这一框架能够胜任图表、科学、空间理解等多类开放视觉任务，并在30多项测试中达到8B参数规模视觉语言模型的SOTA表现。

以往，GPT、Gemini等顶级模型虽擅长视觉推理，但其背后的强化学习方案多为闭源，而开源方案通常仅适用于特定任务。Vero的出现填补了这一空白，证明学术环境下也能追赶工业界的领先成果。

打造全能型视觉推理模型常面临两大难题：一是开源RL方案训练的模型往往只能胜任单一任务；二是多任务训练容易导致模型混乱或退化。Vero通过三方面创新解决了这些问题。

首先，团队构建了一个名为Vero-600K的多样化数据集，包含来自59个数据集的60万高质量样本，覆盖图表OCR、STEM、空间动作、知识识别等六类任务。实验表明，在广泛均衡的数据集上进行RL训练，可避免单一任务训练导致的能力退化。

其次，Vero提出了“任务路由奖励机制”，设计多路奖励系统，根据任务类型自动将输出路由到相应验证器。例如，选择题评估选项正确性，数学题依赖数学校验，开放描述则引入大模型裁判评分。

最后，Vero采用单阶段强化学习，无需私有“Thinking”数据，仅凭高质量数据过滤、均衡任务混合和精确路由奖励，即可激发基础模型的通用视觉推理能力。实验显示，基于Vero训练的模型在30个基准测试中的23项超越了经过专门微调的Qwen3-VL-8B-Thinking。

研究团队还发现，广泛的数据覆盖是驱动视觉推理强化学习的关键。目前，Vero的所有数据、代码和模型均已开源。

项目由普林斯顿PLI实验室主导，通讯作者为Gabriel Sarch和Linrong Cai，陈丹琦参与其中。刘壮作为项目负责人，曾在清华姚班、加州大学伯克利分校深造，并与Meta FAIR及何恺明、LeCun等深度合作。

原文链接

本文链接：https://kx.umi6.com/article/34681.html

转载请注明文章出处

Vero

强化学习

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

小阳哥

764 文章

562718 浏览

24小时热文