英伟达清华团队提出Gamma-World:世界模型从「单人」迈向「多人共处」
允中 发自 凹非寺
量子位 | 公众号 QbitAI
当前视频世界模型在单智能体场景中已趋于成熟,但在多智能体场景下——即多个玩家共享同一演化世界,架构层面一直缺乏系统性解决方案。问题不在于算力不足,而在于现有位置编码和注意力机制未为多主体预留接口。
近日,NVIDIA联合清华大学、多伦多大学和Vector Institute发布Gamma-World(γ-World),通过改进RoPE扩展和注意力拓扑,提供了一套系统性答案。论文标题为《Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players》。
多智能体建模的难点
单智能体模型只需预测单一视角下的未来观测,而多智能体设定需要同时回答:玩家A的动作如何在玩家B的视野中呈现?多名玩家操作同一物体时,状态如何演化?这不是生成独立视频的问题,而是生成耦合视角对同一世界的投影。
技术上,模型需维护三重一致性:时间一致性(画面连贯)、跨视角一致性(不同视角间吻合)、交互一致性(共享环境的状态变化一致)。单智能体框架仅保证时间一致性,后两者从未被纳入设计。
此前,Solaris在双人Minecraft中表现良好,但暴露出两个核心问题:身份编码破坏了对称性,全连接注意力计算成本随玩家数量平方增长,难以扩展。
核心设计一:Simplex Rotary Agent Encoding
Gamma-World引入正单纯形编码,确保所有玩家在表示上“身份等距、地位平等”。例如,2个玩家对应线段两端,3个玩家对应等边三角形顶点,4个玩家对应正四面体顶点。这种编码无需可学习参数,训练时随机分配顶点,推理时可直接扩展玩家数,无需重新训练。
核心设计二:Sparse Hub Attention
Gamma-World用稀疏枢纽注意力替代全连接注意力,将计算复杂度从平方级降至线性级。每个智能体仅与自身历史及枢纽token交互,枢纽token汇总信息后广播回各智能体流,避免直接通信。此设计不仅节省算力,还显式编码了“跨智能体信息应经过共享状态瓶颈”的先验。
核心设计三:三阶段蒸馏
Gamma-World通过三阶段训练平衡生成质量与实时性:第一阶段训练双向教师模型;第二阶段训练因果学生模型;第三阶段通过条件Self-Forcing蒸馏将多步采样压缩为4步采样,最终实现24 FPS实时推演。
实验结果
- 全面超越现有方法:在多人Minecraft环境中,Gamma-World在记忆、空间定位、移动、建造等方面全面领先,FVD指标平均降幅超40%。
- 零样本泛化:仅用双人数据训练,推理时直接生成四路同步视角,验证了单纯形编码的扩展能力。
- 真实机器人应用:模型成功迁移至RealOmin-Open数据集的双臂机器人协同任务,生成未来帧保持协同运动。
小结
Gamma-World通过单纯形编码、稀疏枢纽注意力和条件师生蒸馏三项设计,解决了多智能体世界建模中的核心问题。其方法论强调将问题结构的理解直接编码进架构,而非依赖模型隐式学习。这一成果为多智能体仿真提供了全新基础设施,也为Physical AI领域开辟了新方向。
论文链接:https://github.com/nv-tlabs/Gamma-World
项目主页:https://research.nvidia.com/labs/sil/projects/gamma-world/
-
2026-05-30 11:47:09 -
2026-05-30 01:30:47 -
2026-05-29 23:27:32