不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

2025-06-10 17:50:38

未来编码者

发布在

科普

阅读：766

标题：不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

闻乐发自凹非寺
量子位 | 公众号 QbitAI

为什么语言模型能从预测下一个词中学到很多，而视频模型却从预测下一帧中学到很少？UC伯克利大学计算机副教授Sergey Levine提出了这一疑问。他曾参与Google知名机器人大模型PALM-E、RT1和RT2等项目，谷歌学术被引用次数高达18万次。

Levine以《柏拉图洞穴中的语言模型》为题，探讨AI的局限性。“柏拉图洞穴”比喻揭示了人类认知的局限性。AI若能复现单一终极算法，就可能获得类似人类的灵活推理能力。语言模型通过“下一词预测+强化学习微调”取得了显著成功，但视频模型未能达到同样的效果。

尽管视频数据信息更丰富，视频模型却无法在复杂推理中胜过语言模型。例如，LLMs可以通过文本总结回答问题，而视频模型难以归纳物理规律。这种现象表明，语言模型只是模仿了人类的认知成果，而非真正理解世界。

Levine将互联网比作洞穴，真实世界为洞穴外的阳光，指出AI通过语言模型学习的是人类智慧的间接映射。长远来看，AI应摆脱对文本的依赖，通过传感器直接与物理世界交互，实现自主探索。跨模态连接成为关键挑战，需构建统一方法连接不同感知模式。

— 完 —

原文链接

本文链接：https://kx.umi6.com/article/19997.html

转载请注明文章出处

柏拉图洞穴

视频模型

语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

未来编码者

796 文章

868474 浏览

24小时热文