LeCun的世界模型单GPU就能跑了
LeCun团队开源了一套极简训练方案,名为LeWorldModel(LeWM),基于JEPA架构,仅需单GPU即可运行。它能直接从像素输入预测未来,规划速度极快,1秒内完成。
LeWM的特点包括: - 速度快:比大模型方案快48倍,规划仅需1秒。 - 参数少:仅1500万参数,几小时内可在NVIDIA L40S显卡上完成训练。 - 控制强:在推箱子、机械臂、导航等任务中表现优异,超越端到端方法,媲美大模型方案。 - 懂物理:能识别位置、角度等物理信息,对“物体瞬移”等异常现象表现出“惊讶”。
技术架构方面,LeWM简化了JEPA的核心思想,仅保留编码器+预测器两个组件: - 编码器:将画面压缩为特征向量。 - 预测器:根据当前特征和动作预测下一帧特征。 通过预测损失(MSE均方误差)和SIGReg正则损失(防止特征坍塌),实现稳定训练。
实验结果显示,LeWM在多个机器人任务中表现突出: - 推箱子:成功率96%,优于其他方法。 - 机械臂够目标:与DINO-WM接近,优于PLDM。 - 3D抓方块:略逊于DINO-WM,但仍具竞争力。 - 2D导航:虽稍弱,但物理信息捕捉良好。
此外,LeWM的规划速度比DINO-WM快48倍,观测数据缩小约200倍,几乎可实现实时运行。团队还展示了其对物理规律的理解能力,能准确预测物体运动并对“违反物理”的场景做出反应。
团队成员包括Lucas Maes(Mila博士生)、Quentin Le Lidec(纽约大学博士后)、Damien Scieur(三星研究员)等,研究方向涵盖优化算法、世界模型及物理理解。
项目主页:https://le-wm.github.io/
GitHub地址:https://github.com/lucas-maes/le-wm
论文地址:https://arxiv.org/pdf/2603.19312v1
-
2026-03-25 00:39:03 -
2026-03-24 23:33:47 -
2026-03-24 23:29:21