1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

仅需一个强化学习(RL)框架,就能实现视觉任务大统一?现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!

最新开源的V-Triune(视觉三重统一强化学习系统)框架,使视觉语言模型(VLM)首次能在单个后训练流程中,联合学习和掌握视觉推理和感知任务。通过三层组件设计和基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。

甚至基于V-Triune,MiniMax还开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

值得注意的是,MiniMax创始人兼CEO闫俊杰也参与了这项研究。目前V-Triune框架和Orsta模型都在GitHub上实现全面开源。

V-Triune框架通过三个互补组件实现推理与感知任务的平衡:样本级数据格式化、验证器级奖励计算、数据源级指标监控。动态IoU奖励进一步缓解冷启动问题,提升定位精度。

尽管V-Triune提供了可扩展的数据、任务和指标框架,但联合训练初期存在评估性能下降、梯度范数突增等问题,团队通过冻结ViT参数、过滤伪图像特殊词元、构建随机化CoT提示池等手段逐步解决。

Orsta模型基于Qwen2.5-VL模型训练,涵盖7B和32B版本,在推理和感知任务中均表现出色,尤其在感知任务中mAP指标显著提高。

MiniMax近期在多模态领域动作频频,包括S2V-01视频模型、MiniMax-VL-01视觉多模态模型及MiniMax-T2A-01语言模型等。最新发布的Speech-02在语音生成领域刷新全球权威榜单第一。

此番统一视觉任务的RL架构旨在为后续更大规模模型的通用视觉能力做探索。感兴趣的小伙伴可以持续关注MiniMax的开源进展。

论文链接:https://arxiv.org/abs/2505.18129
代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

原文链接
本文链接:https://kx.umi6.com/article/19412.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
消息称国内 AI 大模型初创公司 MiniMax 产品负责人张前川离职
2024-09-15 21:04:43
MiniMax海螺AI爆火海外 国产AI开启出海掘金之路
2024-10-22 21:16:15
MiniMax加速调整,或成受DeepSeek影响最小的六小虎
2025-03-14 21:31:33
钛媒体AGI独家
2025-02-19 19:54:56
细节表现超Sora,网友:真正的国产之光!MiniMax视频模型再上新
2024-12-16 14:39:22
MiniMax将收购深圳AI视频生成创企鹿影科技
2025-03-14 09:01:19
稀宇科技发布并开源新一代 MiniMax 01 系列模型,参数量达 4560 亿
2025-01-15 14:34:08
杨植麟和闫俊杰首次「撞车」
2025-06-23 08:20:52
“狠人”闫俊杰,闯关IPO
2025-07-11 13:37:48
AI创业进入“淘汰赛” MiniMax洽谈收购视频生成创企鹿影科技
2025-03-14 13:10:40
MiniMax-01系列模型上线超算互联网
2025-04-16 11:09:12
国产大模型,别指望OpenAI给答案
2024-09-03 20:54:14
黄仁勋与MiniMax创始人闫俊杰单独会面 双方进行了两个小时的单独交流
2025-07-18 17:44:24
24小时热文
更多
扫一扫体验小程序