1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:纯靠“脑补”图像,大模型推理准确率提升80%!剑桥谷歌新研究

正文:
不再依赖语言,仅凭图像就能完成模型推理?大模型再创SOTA!

当你玩超级玛丽时,会根据画面自动规划步骤,但传统语言模型还需先转成文字指令,效率低且易丢信息。有方法能跳过“语言中介”吗?

剑桥、伦敦大学学院与谷歌团队推出首个纯图像推理新范式——基于强化学习的视觉规划(VPRL)。此框架利用GRPO对大型视觉模型后训练,在多个视觉导航任务中表现远超文本推理方法,准确率达80%,性能高出40%。

VPRL分为两阶段:随机游走初始化策略并生成连贯视觉输出,随后通过强化学习优化,计算组内相对优势并更新策略模型。实验选用LVM-3B模型,在FrozenLake、Maze及MiniBehavior任务中,VPRL的精确匹配率平均达80.6%,远超Gemini 2.5 Pro的43.7%。此外,VPRL在复杂任务中的表现更稳定,失效率降低24%。

研究首次证明视觉规划优于文本规划,推动多模态推理向更直观图像化方向发展。相关代码已开源。

原文链接
本文链接:https://kx.umi6.com/article/18982.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
我读了读苹果的AI大模型论文,发现这几个秘密
2024-06-26 22:45:35
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
2025-05-21 17:08:17
xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态
2025-11-24 21:15:56
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
2025-11-20 22:47:09
让用户无痛开发AI应用,袁进辉新公司获近亿元天使+轮融资 | 36氪首发
2024-07-04 12:29:16
计算所严明玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不一定更快
2025-12-22 11:41:00
Apple的AI奠基性论文解读
2024-06-26 18:43:28
Deepseek大模型推理算法其实很简单
2025-02-09 16:51:53
34GB大礼包 AMD显卡AI生产力来了:ComfyUI等5大软件一键部署
2026-01-22 23:17:29
广东:推广邮政快递末端智能收派服务 推动无人车、无人机与智能快件箱协同配送
2026-01-21 17:22:35
OpenAI已建立人形机器人实验室 启动以来规模扩大四倍多
2026-01-22 21:11:56
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
2026-01-22 17:03:53
24小时热文
更多
扫一扫体验小程序