首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

2025-05-28 22:35:05

神经网络领航员

发布在

科普

阅读：219

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

仅需一个强化学习（RL）框架，就能实现视觉任务大统一？现有RL对推理和感知任务只能二选一，但“大模型六小强”之一MiniMax表示：我全都要！

最新开源的V-Triune（视觉三重统一强化学习系统）框架，使视觉语言模型（VLM）首次能在单个后训练流程中，联合学习和掌握视觉推理和感知任务。通过三层组件设计和基于动态交并比（IoU）的奖励机制，弥补了传统RL方法无法兼顾多重任务的空白。

甚至基于V-Triune，MiniMax还开发了全新的Orsta（One RL to See Them All）模型系列（7B至32B），在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

值得注意的是，MiniMax创始人兼CEO闫俊杰也参与了这项研究。目前V-Triune框架和Orsta模型都在GitHub上实现全面开源。

V-Triune框架通过三个互补组件实现推理与感知任务的平衡：样本级数据格式化、验证器级奖励计算、数据源级指标监控。动态IoU奖励进一步缓解冷启动问题，提升定位精度。

尽管V-Triune提供了可扩展的数据、任务和指标框架，但联合训练初期存在评估性能下降、梯度范数突增等问题，团队通过冻结ViT参数、过滤伪图像特殊词元、构建随机化CoT提示池等手段逐步解决。

Orsta模型基于Qwen2.5-VL模型训练，涵盖7B和32B版本，在推理和感知任务中均表现出色，尤其在感知任务中mAP指标显著提高。

MiniMax近期在多模态领域动作频频，包括S2V-01视频模型、MiniMax-VL-01视觉多模态模型及MiniMax-T2A-01语言模型等。最新发布的Speech-02在语音生成领域刷新全球权威榜单第一。

此番统一视觉任务的RL架构旨在为后续更大规模模型的通用视觉能力做探索。感兴趣的小伙伴可以持续关注MiniMax的开源进展。

论文链接：https://arxiv.org/abs/2505.18129
代码链接：https://github.com/MiniMax-AI/One-RL-to-See-Them-All

原文链接

本文链接：https://kx.umi6.com/article/19412.html

转载请注明文章出处

MEGA-Bench

MiniMax

视觉RL统一框架

分享至

打开微信扫一扫

内容投诉

生成图片

428 文章

56350 浏览

24小时热文