1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?UC伯克利大学计算机副教授Sergey Levine提出了这一疑问。他曾参与Google知名机器人大模型PALM-E、RT1和RT2等项目,谷歌学术被引用次数高达18万次。

Levine以《柏拉图洞穴中的语言模型》为题,探讨AI的局限性。“柏拉图洞穴”比喻揭示了人类认知的局限性。AI若能复现单一终极算法,就可能获得类似人类的灵活推理能力。语言模型通过“下一词预测+强化学习微调”取得了显著成功,但视频模型未能达到同样的效果。

尽管视频数据信息更丰富,视频模型却无法在复杂推理中胜过语言模型。例如,LLMs可以通过文本总结回答问题,而视频模型难以归纳物理规律。这种现象表明,语言模型只是模仿了人类的认知成果,而非真正理解世界。

Levine将互联网比作洞穴,真实世界为洞穴外的阳光,指出AI通过语言模型学习的是人类智慧的间接映射。长远来看,AI应摆脱对文本的依赖,通过传感器直接与物理世界交互,实现自主探索。跨模态连接成为关键挑战,需构建统一方法连接不同感知模式。

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/19997.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
为什么DeepSeek回答前总先“嗯”一下
2025-04-30 20:17:08
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
2025-02-10 15:13:00
我们试了市面上八款视频模型,发现Sora 确实不太行了
2024-12-30 18:28:36
OpenAI 官宣将发布自 GPT-2 以来的首个开放权重语言模型,并具有推理功能
2025-04-01 08:14:11
通义千问系列最强大的语言模型:Qwen3-Max-Preview 上线
2025-09-06 00:26:52
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
2024-10-18 09:36:11
把Runway、Luma们一锅端了!这款视频模型上“杀手级”功能:一致性魔咒终于打破
2024-11-14 16:16:23
AI视觉基础:学习压缩图像
2024-06-14 17:36:22
文生视频公司Pika获新一轮8000万融资,估值达4.7亿美元
2024-06-06 19:53:53
120 秒生成 120 帧,视频模型 Dream Machine 开放测试免费试用
2024-06-13 11:47:03
OpenAI产品线大调整:GPT-5数月内发布,基础版免费无限使用
2025-02-13 15:03:24
大模型自指:代码生成的递归式自我提升
2025-09-02 20:37:56
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
2025-06-19 15:51:06
24小时热文
更多
扫一扫体验小程序