标题:用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
华中科技大学、北京邮电大学等多校团队推出首个在COCO2017 val set上突破30AP的纯多模态开源LLM——Perception-R1(PR1),专注于视觉推理的基础感知任务,如计数、目标检测、OCR等。PR1通过基于规则的强化学习提升模型的感知策略,展现潜力并提供强大Baseline。
论文和代码已开源,作者希望促进后续研究。视觉感知是AI理解世界的基石,从自动驾驶到医疗诊断均需其支撑。多模态大语言模型虽在视觉问答上有进展,但在精确物体定位、计数及复杂推理上仍有不足。
Perception-R1基于后训练框架,通过Group Relative Policy Optimization(GRPO)优化感知策略。GRPO通过多次尝试、奖励建模、相对比较和策略更新,逐步提升模型性能。奖励函数结合格式与答案准确性,任务包括视觉定位、计数和OCR。
实验结果显示,PR1在多种任务中表现优异,甚至超越专用模型。此外,消融实验验证了其有效性和扩展性,为未来更大规模应用奠定基础。论文和代码均已公开。
原文链接
本文链接:https://kx.umi6.com/article/18107.html
转载请注明文章出处
相关推荐
换一换
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA
2026-04-11 09:51:56
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
2025-06-25 14:46:33
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
762 文章
650864 浏览
24小时热文
更多
-
2026-05-19 19:54:37 -
2026-05-19 19:53:31 -
2026-05-19 19:52:25