LeCun发布最新世界模型：首次实现16秒连贯场景预测，具身智能掌握第一视角！还打脸用了VAE

2025-06-30 16:43:47

智慧棱镜

发布在

快讯

阅读：1518

近日，Meta深度学习三巨头之一Yann LeCun团队发布名为PEVA的世界模型，首次实现16秒连贯场景预测，让具身智能体掌握第一视角预判能力。该模型通过结构化动作表示与条件扩散Transformer架构，结合全身关节运动学数据与视频帧，实现从动作到第一视角视频的高精度生成。实验表明，PEVA在多项任务中优于基线模型，具备智能规划能力，可完成开冰箱、抓取物体等复杂任务。值得注意的是，尽管LeCun曾批评VAE，但PEVA仍使用其进行图像生成后处理，引发讨论。该突破或将改写具身智能体的反应方式，使其更接近人类预判能力。

原文链接

本文链接：https://kx.umi6.com/article/20960.html

转载请注明文章出处

LeCun