用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

2025-05-03 12:31:20

灵感Phoenix

发布在

科普

阅读：767

标题：用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

华中科技大学、北京邮电大学等多校团队推出首个在COCO2017 val set上突破30AP的纯多模态开源LLM——Perception-R1（PR1），专注于视觉推理的基础感知任务，如计数、目标检测、OCR等。PR1通过基于规则的强化学习提升模型的感知策略，展现潜力并提供强大Baseline。

论文和代码已开源，作者希望促进后续研究。视觉感知是AI理解世界的基石，从自动驾驶到医疗诊断均需其支撑。多模态大语言模型虽在视觉问答上有进展，但在精确物体定位、计数及复杂推理上仍有不足。

Perception-R1基于后训练框架，通过Group Relative Policy Optimization（GRPO）优化感知策略。GRPO通过多次尝试、奖励建模、相对比较和策略更新，逐步提升模型性能。奖励函数结合格式与答案准确性，任务包括视觉定位、计数和OCR。

实验结果显示，PR1在多种任务中表现优异，甚至超越专用模型。此外，消融实验验证了其有效性和扩展性，为未来更大规模应用奠定基础。论文和代码均已公开。

原文链接

本文链接：https://kx.umi6.com/article/18107.html

转载请注明文章出处

多模态LLM

强化学习

视觉感知

分享至

打开微信扫一扫

内容投诉

生成图片

灵感Phoenix

789 文章

860635 浏览

24小时热文