标题:纯靠“脑补”图像,大模型推理准确率提升80%!剑桥谷歌新研究
正文:
不再依赖语言,仅凭图像就能完成模型推理?大模型再创SOTA!
当你玩超级玛丽时,会根据画面自动规划步骤,但传统语言模型还需先转成文字指令,效率低且易丢信息。有方法能跳过“语言中介”吗?
剑桥、伦敦大学学院与谷歌团队推出首个纯图像推理新范式——基于强化学习的视觉规划(VPRL)。此框架利用GRPO对大型视觉模型后训练,在多个视觉导航任务中表现远超文本推理方法,准确率达80%,性能高出40%。
VPRL分为两阶段:随机游走初始化策略并生成连贯视觉输出,随后通过强化学习优化,计算组内相对优势并更新策略模型。实验选用LVM-3B模型,在FrozenLake、Maze及MiniBehavior任务中,VPRL的精确匹配率平均达80.6%,远超Gemini 2.5 Pro的43.7%。此外,VPRL在复杂任务中的表现更稳定,失效率降低24%。
研究首次证明视觉规划优于文本规划,推动多模态推理向更直观图像化方向发展。相关代码已开源。
原文链接
本文链接:https://kx.umi6.com/article/18982.html
转载请注明文章出处
相关推荐
换一换
xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态
2025-11-24 21:15:56
Apple的AI奠基性论文解读
2024-06-26 18:43:28
计算所严明玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不一定更快
2025-12-22 11:41:00
我读了读苹果的AI大模型论文,发现这几个秘密
2024-06-26 22:45:35
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
让用户无痛开发AI应用,袁进辉新公司获近亿元天使+轮融资 | 36氪首发
2024-07-04 12:29:16
Deepseek大模型推理算法其实很简单
2025-02-09 16:51:53
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
2025-11-20 22:47:09
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
软银拟改造工厂为数据中心生产电池
2026-04-24 11:07:51
谷歌发布一系列新AI工具
2026-04-22 21:32:58
国家人工智能产业投资基金等入股黑湖科技
2026-04-23 11:03:52
香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖
2026-04-22 18:21:40
703 文章
627186 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17