标题:不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?UC伯克利大学计算机副教授Sergey Levine提出了这一疑问。他曾参与Google知名机器人大模型PALM-E、RT1和RT2等项目,谷歌学术被引用次数高达18万次。
Levine以《柏拉图洞穴中的语言模型》为题,探讨AI的局限性。“柏拉图洞穴”比喻揭示了人类认知的局限性。AI若能复现单一终极算法,就可能获得类似人类的灵活推理能力。语言模型通过“下一词预测+强化学习微调”取得了显著成功,但视频模型未能达到同样的效果。
尽管视频数据信息更丰富,视频模型却无法在复杂推理中胜过语言模型。例如,LLMs可以通过文本总结回答问题,而视频模型难以归纳物理规律。这种现象表明,语言模型只是模仿了人类的认知成果,而非真正理解世界。
Levine将互联网比作洞穴,真实世界为洞穴外的阳光,指出AI通过语言模型学习的是人类智慧的间接映射。长远来看,AI应摆脱对文本的依赖,通过传感器直接与物理世界交互,实现自主探索。跨模态连接成为关键挑战,需构建统一方法连接不同感知模式。
— 完 —
原文链接
本文链接:https://kx.umi6.com/article/19997.html
转载请注明文章出处
相关推荐
换一换
OpenAI产品线大调整:GPT-5数月内发布,基础版免费无限使用
2025-02-13 15:03:24
OpenAI 改进 ChatGPT 语言模型,提早识别心理压力与风险话题
2025-11-03 15:27:43
破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”
2025-10-26 13:12:39
文生视频公司Pika获新一轮8000万融资,估值达4.7亿美元
2024-06-06 19:53:53
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
2025-06-10 17:50:38
为什么DeepSeek回答前总先“嗯”一下
2025-04-30 20:17:08
谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”
2025-05-20 14:40:51
Claude团队新研究:为什么有的模型假装对齐有的不会
2025-07-09 18:06:47
大脑在不断预测并修正错误?
2025-04-30 19:56:24
120 秒生成 120 帧,视频模型 Dream Machine 开放测试免费试用
2024-06-13 11:47:03
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
2025-06-19 15:51:06
OpenAI 官宣将发布自 GPT-2 以来的首个开放权重语言模型,并具有推理功能
2025-04-01 08:14:11
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
2024-10-18 09:36:11
648 文章
397538 浏览
24小时热文
更多
-
2025-12-10 15:58:23 -
2025-12-10 15:57:24 -
2025-12-10 15:56:14