1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:纯靠“脑补”图像,大模型推理准确率提升80%!剑桥谷歌新研究

正文:
不再依赖语言,仅凭图像就能完成模型推理?大模型再创SOTA!

当你玩超级玛丽时,会根据画面自动规划步骤,但传统语言模型还需先转成文字指令,效率低且易丢信息。有方法能跳过“语言中介”吗?

剑桥、伦敦大学学院与谷歌团队推出首个纯图像推理新范式——基于强化学习的视觉规划(VPRL)。此框架利用GRPO对大型视觉模型后训练,在多个视觉导航任务中表现远超文本推理方法,准确率达80%,性能高出40%。

VPRL分为两阶段:随机游走初始化策略并生成连贯视觉输出,随后通过强化学习优化,计算组内相对优势并更新策略模型。实验选用LVM-3B模型,在FrozenLake、Maze及MiniBehavior任务中,VPRL的精确匹配率平均达80.6%,远超Gemini 2.5 Pro的43.7%。此外,VPRL在复杂任务中的表现更稳定,失效率降低24%。

研究首次证明视觉规划优于文本规划,推动多模态推理向更直观图像化方向发展。相关代码已开源。

原文链接
本文链接:https://kx.umi6.com/article/18982.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Apple的AI奠基性论文解读
2024-06-26 18:43:28
Deepseek大模型推理算法其实很简单
2025-02-09 16:51:53
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
2025-05-21 17:08:17
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
我读了读苹果的AI大模型论文,发现这几个秘密
2024-06-26 22:45:35
让用户无痛开发AI应用,袁进辉新公司获近亿元天使+轮融资 | 36氪首发
2024-07-04 12:29:16
上海:2027年基本建成全球领先高级别自动驾驶引领区
2025-07-26 16:44:29
阿里国际 AI 解决方案日均调用量达 10 亿次,核心技术均已开源
2025-07-27 12:59:45
阿里国际AI agent——Marco日均调用量已达10亿次
2025-07-27 12:01:48
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
我国自主研发“磐石・科学基础大模型”发布:系统掌握数理化天地生六大学科核心定理
2025-07-26 15:42:01
爱芯元智将于28日与无问芯穹联合发布新产品
2025-07-26 12:42:39
华为首次线下展出昇腾 384 超节点:业界最大规模 384 卡高速总线互联
2025-07-26 16:43:24
24小时热文
更多
扫一扫体验小程序