英伟达清华团队提出Gamma-World：世界模型从「一个人玩」到「多人共处」

2026-05-30 11:47:09

AI奇点纪元

发布在

科普

阅读：128

英伟达清华团队提出Gamma-World：世界模型从「单人」迈向「多人共处」

允中发自凹非寺
量子位 | 公众号 QbitAI

当前视频世界模型在单智能体场景中已趋于成熟，但在多智能体场景下——即多个玩家共享同一演化世界，架构层面一直缺乏系统性解决方案。问题不在于算力不足，而在于现有位置编码和注意力机制未为多主体预留接口。

近日，NVIDIA联合清华大学、多伦多大学和Vector Institute发布Gamma-World（γ-World），通过改进RoPE扩展和注意力拓扑，提供了一套系统性答案。论文标题为《Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players》。

多智能体建模的难点

单智能体模型只需预测单一视角下的未来观测，而多智能体设定需要同时回答：玩家A的动作如何在玩家B的视野中呈现？多名玩家操作同一物体时，状态如何演化？这不是生成独立视频的问题，而是生成耦合视角对同一世界的投影。

技术上，模型需维护三重一致性：时间一致性（画面连贯）、跨视角一致性（不同视角间吻合）、交互一致性（共享环境的状态变化一致）。单智能体框架仅保证时间一致性，后两者从未被纳入设计。

此前，Solaris在双人Minecraft中表现良好，但暴露出两个核心问题：身份编码破坏了对称性，全连接注意力计算成本随玩家数量平方增长，难以扩展。

核心设计一：Simplex Rotary Agent Encoding

Gamma-World引入正单纯形编码，确保所有玩家在表示上“身份等距、地位平等”。例如，2个玩家对应线段两端，3个玩家对应等边三角形顶点，4个玩家对应正四面体顶点。这种编码无需可学习参数，训练时随机分配顶点，推理时可直接扩展玩家数，无需重新训练。

核心设计二：Sparse Hub Attention

Gamma-World用稀疏枢纽注意力替代全连接注意力，将计算复杂度从平方级降至线性级。每个智能体仅与自身历史及枢纽token交互，枢纽token汇总信息后广播回各智能体流，避免直接通信。此设计不仅节省算力，还显式编码了“跨智能体信息应经过共享状态瓶颈”的先验。

核心设计三：三阶段蒸馏

Gamma-World通过三阶段训练平衡生成质量与实时性：第一阶段训练双向教师模型；第二阶段训练因果学生模型；第三阶段通过条件Self-Forcing蒸馏将多步采样压缩为4步采样，最终实现24 FPS实时推演。

实验结果

全面超越现有方法：在多人Minecraft环境中，Gamma-World在记忆、空间定位、移动、建造等方面全面领先，FVD指标平均降幅超40%。
零样本泛化：仅用双人数据训练，推理时直接生成四路同步视角，验证了单纯形编码的扩展能力。
真实机器人应用：模型成功迁移至RealOmin-Open数据集的双臂机器人协同任务，生成未来帧保持协同运动。

小结

Gamma-World通过单纯形编码、稀疏枢纽注意力和条件师生蒸馏三项设计，解决了多智能体世界建模中的核心问题。其方法论强调将问题结构的理解直接编码进架构，而非依赖模型隐式学习。这一成果为多智能体仿真提供了全新基础设施，也为Physical AI领域开辟了新方向。

论文链接：https://github.com/nv-tlabs/Gamma-World
项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/

原文链接

本文链接：https://kx.umi6.com/article/36319.html

转载请注明文章出处

Gamma-World

多智能体世界模型

稀疏枢纽注意力

分享至

打开微信扫一扫

内容投诉

生成图片

AI奇点纪元

746 文章

639354 浏览

24小时热文

英伟达清华团队提出Gamma-World：世界模型从「一个人玩」到「多人共处」

2026-05-30 11:47:09
思格新能源发布行业首个全域AI智能体，能源管理进入智能体时代

2026-05-30 01:30:47
4nm！比亚迪自研AI芯片来了：制程对齐英伟达，算力拉爆特斯拉

2026-05-29 23:27:32