
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,Meta深度学习三巨头之一Yann LeCun团队发布名为PEVA的世界模型,首次实现16秒连贯场景预测,让具身智能体掌握第一视角预判能力。该模型通过结构化动作表示与条件扩散Transformer架构,结合全身关节运动学数据与视频帧,实现从动作到第一视角视频的高精度生成。实验表明,PEVA在多项任务中优于基线模型,具备智能规划能力,可完成开冰箱、抓取物体等复杂任务。值得注意的是,尽管LeCun曾批评VAE,但PEVA仍使用其进行图像生成后处理,引发讨论。该突破或将改写具身智能体的反应方式,使其更接近人类预判能力。
原文链接
加载更多

暂无内容