标题:纯靠“脑补”图像,大模型推理准确率提升80%!剑桥谷歌新研究
正文:
不再依赖语言,仅凭图像就能完成模型推理?大模型再创SOTA!
当你玩超级玛丽时,会根据画面自动规划步骤,但传统语言模型还需先转成文字指令,效率低且易丢信息。有方法能跳过“语言中介”吗?
剑桥、伦敦大学学院与谷歌团队推出首个纯图像推理新范式——基于强化学习的视觉规划(VPRL)。此框架利用GRPO对大型视觉模型后训练,在多个视觉导航任务中表现远超文本推理方法,准确率达80%,性能高出40%。
VPRL分为两阶段:随机游走初始化策略并生成连贯视觉输出,随后通过强化学习优化,计算组内相对优势并更新策略模型。实验选用LVM-3B模型,在FrozenLake、Maze及MiniBehavior任务中,VPRL的精确匹配率平均达80.6%,远超Gemini 2.5 Pro的43.7%。此外,VPRL在复杂任务中的表现更稳定,失效率降低24%。
研究首次证明视觉规划优于文本规划,推动多模态推理向更直观图像化方向发展。相关代码已开源。
原文链接
本文链接:https://kx.umi6.com/article/18982.html
转载请注明文章出处
相关推荐
换一换
Apple的AI奠基性论文解读
2024-06-26 18:43:28
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
2025-05-21 17:08:17
Deepseek大模型推理算法其实很简单
2025-02-09 16:51:53
让用户无痛开发AI应用,袁进辉新公司获近亿元天使+轮融资 | 36氪首发
2024-07-04 12:29:16
我读了读苹果的AI大模型论文,发现这几个秘密
2024-06-26 22:45:35
计算所严明玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不一定更快
2025-12-22 11:41:00
xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态
2025-11-24 21:15:56
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
2025-11-20 22:47:09
埃斯顿(2715.HK)今日登陆港交所 国产机器人龙头开启A+H新征程
2026-03-09 09:27:00
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
2026-03-09 16:53:38
交通运输部部长刘伟:“十五五”时期重点深入实施“人工智能+”行动
2026-03-09 11:33:23
AI浏览器何时才能安全?
2026-03-07 00:49:29
659 文章
518434 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18