1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?UC伯克利大学计算机副教授Sergey Levine提出了这一疑问。他曾参与Google知名机器人大模型PALM-E、RT1和RT2等项目,谷歌学术被引用次数高达18万次。

Levine以《柏拉图洞穴中的语言模型》为题,探讨AI的局限性。“柏拉图洞穴”比喻揭示了人类认知的局限性。AI若能复现单一终极算法,就可能获得类似人类的灵活推理能力。语言模型通过“下一词预测+强化学习微调”取得了显著成功,但视频模型未能达到同样的效果。

尽管视频数据信息更丰富,视频模型却无法在复杂推理中胜过语言模型。例如,LLMs可以通过文本总结回答问题,而视频模型难以归纳物理规律。这种现象表明,语言模型只是模仿了人类的认知成果,而非真正理解世界。

Levine将互联网比作洞穴,真实世界为洞穴外的阳光,指出AI通过语言模型学习的是人类智慧的间接映射。长远来看,AI应摆脱对文本的依赖,通过传感器直接与物理世界交互,实现自主探索。跨模态连接成为关键挑战,需构建统一方法连接不同感知模式。

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/19997.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
生成式AI在日本发展如何?日本政府白皮书:使用率不高
2024-07-10 20:22:15
成本打到6万以下,手把手教你用4路锐炫™显卡+至强®W跑DeepSeek
2025-02-21 19:55:35
24小时热文
更多
扫一扫体验小程序