标题:李飞飞最新思考:语言模型救不了机器人
正文:
AI 行业近年来发展迅猛,技术迭代与讨论热度持续攀升。然而,在这密集的技术周期中,很少有人停下来思考一个基本问题:我们到底在追求怎样的智能?语言之上,是否还有尚未被充分理解的能力?
李飞飞近期发表了一篇关于世界模型的文章,重新引发了对这一问题的关注。文章没有渲染革命,也没有描绘轻松的未来,而是直指当下技术正在绕开的硬骨头:空间理解、物理推理、具身行为以及真实世界的不确定性。这些长期被忽视的难题迅速引发了 AI 圈内关于世界模型的激烈讨论。
在随后的一次访谈中,李飞飞进一步拆解了这些问题,从语言模型在世界理解上的结构性短板,到三维空间在智能形成中的基础角色,再到机器人停滞背后的现实条件,她给出了更具体的解释。这次访谈不仅延续了长文的核心观点,还补全了其中未尽的部分,让外界得以更清楚地看到她关注的技术方向及其逻辑。
从图灵问题到深度学习的七十年
主持人回顾了李飞飞的职业生涯,包括她在 ImageNet 数据集上的开创性工作和对 AI 领域的深远影响。李飞飞表示,自己并非乌托邦主义者,而是人文主义者。她强调,AI 的未来取决于人类的选择,任何技术都有两面性,关键在于如何负责任地面对它。
谈及 ImageNet 的诞生,李飞飞指出,当时的研究瓶颈在于数据不足。她意识到,大规模数据是让 AI“活”起来的关键因素。2006 年,她和团队启动了 ImageNet 项目,最终构建了一个包含 1500 万张图像的数据集,并将其开源。2012 年,Geoff Hinton 团队利用 ImageNet 和 GPU 训练出突破性的神经网络模型,开启了现代深度学习的时代。
语言之外,智能世界模型登场
当被问及 AGI(通用人工智能)时,李飞飞认为,AGI 更像是营销语言而非科学术语。当前的 AI 在某些领域取得了进展,但离全面实现人工智能仍有距离。她特别提到,现有模型在空间智能和物理推理方面存在明显短板,而这正是机器人领域亟需解决的问题。
李飞飞强调,世界模型的重要性在于帮助机器理解真实世界的运行方式。例如,在应急救援场景中,人类依赖的是行动能力、空间感知和情境判断,而不仅仅是语言。她创办的 World Labs 正致力于开发世界模型,推动空间智能的发展。
「惨痛教训」教不出机器人
针对强化学习领域的“惨痛教训”理论,李飞飞指出,该理论在机器人领域可能行不通。原因在于,机器人需要的是三维动作数据,而现有训练数据多为二维信息,难以直接对齐目标。此外,机器人作为物理系统,其研发不仅涉及软件,还需要硬件和应用场景的支持。
影子,与真正的世界
World Labs 推出的第一款产品 Marble 是全球首个能够生成三维世界的生成式模型。用户可以通过一句话或几张图片生成可自由探索的三维场景,适用于电影虚拟制作、游戏开发、机器人仿真等领域。李飞飞强调,Marble 的核心区别在于它生成的是具备三维结构的世界,而不仅仅是二维视频。
做前沿领域的无畏者
李飞飞坦言,创业过程中最大的挑战是未知和竞争。但她始终相信,好奇心和热情是推动改变的关键。她鼓励年轻人勇敢进入无人探索的领域,不要过度担心失败。
最后,李飞飞呼吁每个人在 AI 时代找到自己的位置。无论是艺术家、教师还是农民,AI 都可以成为扩展能力的工具。她强调,人的主体性必须始终处于技术研发和治理的中心。
博客地址:https://www.lennysnewsletter.com/p/the-godmother-of-ai
视频地址:https://www.youtube.com/watch?v=Ctjiatnd6Xk
-
2025-11-18 16:28:47 -
2025-11-18 16:27:43 -
2025-11-18 16:26:35