首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench
仅需一个强化学习(RL)框架,就能实现视觉任务大统一?现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!
最新开源的V-Triune(视觉三重统一强化学习系统)框架,使视觉语言模型(VLM)首次能在单个后训练流程中,联合学习和掌握视觉推理和感知任务。通过三层组件设计和基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。
甚至基于V-Triune,MiniMax还开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。
值得注意的是,MiniMax创始人兼CEO闫俊杰也参与了这项研究。目前V-Triune框架和Orsta模型都在GitHub上实现全面开源。
V-Triune框架通过三个互补组件实现推理与感知任务的平衡:样本级数据格式化、验证器级奖励计算、数据源级指标监控。动态IoU奖励进一步缓解冷启动问题,提升定位精度。
尽管V-Triune提供了可扩展的数据、任务和指标框架,但联合训练初期存在评估性能下降、梯度范数突增等问题,团队通过冻结ViT参数、过滤伪图像特殊词元、构建随机化CoT提示池等手段逐步解决。
Orsta模型基于Qwen2.5-VL模型训练,涵盖7B和32B版本,在推理和感知任务中均表现出色,尤其在感知任务中mAP指标显著提高。
MiniMax近期在多模态领域动作频频,包括S2V-01视频模型、MiniMax-VL-01视觉多模态模型及MiniMax-T2A-01语言模型等。最新发布的Speech-02在语音生成领域刷新全球权威榜单第一。
此番统一视觉任务的RL架构旨在为后续更大规模模型的通用视觉能力做探索。感兴趣的小伙伴可以持续关注MiniMax的开源进展。
论文链接:https://arxiv.org/abs/2505.18129
代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All
.png)

-
2025-07-23 15:57:48
-
2025-07-23 15:57:30
-
2025-07-23 15:56:44