纯靠“脑补”图像，大模型推理准确率狂飙80%丨剑桥谷歌新研究

2025-05-21 17:08:17

量子黑客

发布在

科普

阅读：1361

标题：纯靠“脑补”图像，大模型推理准确率提升80%！剑桥谷歌新研究

正文：
不再依赖语言，仅凭图像就能完成模型推理？大模型再创SOTA！

当你玩超级玛丽时，会根据画面自动规划步骤，但传统语言模型还需先转成文字指令，效率低且易丢信息。有方法能跳过“语言中介”吗？

剑桥、伦敦大学学院与谷歌团队推出首个纯图像推理新范式——基于强化学习的视觉规划（VPRL）。此框架利用GRPO对大型视觉模型后训练，在多个视觉导航任务中表现远超文本推理方法，准确率达80%，性能高出40%。

VPRL分为两阶段：随机游走初始化策略并生成连贯视觉输出，随后通过强化学习优化，计算组内相对优势并更新策略模型。实验选用LVM-3B模型，在FrozenLake、Maze及MiniBehavior任务中，VPRL的精确匹配率平均达80.6%，远超Gemini 2.5 Pro的43.7%。此外，VPRL在复杂任务中的表现更稳定，失效率降低24%。

研究首次证明视觉规划优于文本规划，推动多模态推理向更直观图像化方向发展。相关代码已开源。

原文链接

本文链接：https://kx.umi6.com/article/18982.html

转载请注明文章出处

图像推理