1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,Meta深度学习三巨头之一Yann LeCun团队发布名为PEVA的世界模型,首次实现16秒连贯场景预测,让具身智能体掌握第一视角预判能力。该模型通过结构化动作表示与条件扩散Transformer架构,结合全身关节运动学数据与视频帧,实现从动作到第一视角视频的高精度生成。实验表明,PEVA在多项任务中优于基线模型,具备智能规划能力,可完成开冰箱、抓取物体等复杂任务。值得注意的是,尽管LeCun曾批评VAE,但PEVA仍使用其进行图像生成后处理,引发讨论。该突破或将改写具身智能体的反应方式,使其更接近人类预判能力。

原文链接
本文链接:https://kx.umi6.com/article/20960.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
2024-08-19 12:33:58
对话任少卿:世界模型是自动驾驶与机器人的新范式
2024-09-18 16:05:54
AI“造物主”:谷歌招兵买马打造“世界模型”模拟真实世界,剑指 AGI
2025-01-08 11:33:01
24小时热文
更多
扫一扫体验小程序