1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

英伟达清华团队提出Gamma-World:世界模型从「单人」迈向「多人共处」

允中 发自 凹非寺
量子位 | 公众号 QbitAI

当前视频世界模型在单智能体场景中已趋于成熟,但在多智能体场景下——即多个玩家共享同一演化世界,架构层面一直缺乏系统性解决方案。问题不在于算力不足,而在于现有位置编码和注意力机制未为多主体预留接口。

近日,NVIDIA联合清华大学、多伦多大学和Vector Institute发布Gamma-World(γ-World),通过改进RoPE扩展和注意力拓扑,提供了一套系统性答案。论文标题为《Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players》。

多智能体建模的难点

单智能体模型只需预测单一视角下的未来观测,而多智能体设定需要同时回答:玩家A的动作如何在玩家B的视野中呈现?多名玩家操作同一物体时,状态如何演化?这不是生成独立视频的问题,而是生成耦合视角对同一世界的投影。

技术上,模型需维护三重一致性:时间一致性(画面连贯)、跨视角一致性(不同视角间吻合)、交互一致性(共享环境的状态变化一致)。单智能体框架仅保证时间一致性,后两者从未被纳入设计。

此前,Solaris在双人Minecraft中表现良好,但暴露出两个核心问题:身份编码破坏了对称性,全连接注意力计算成本随玩家数量平方增长,难以扩展。

核心设计一:Simplex Rotary Agent Encoding

Gamma-World引入正单纯形编码,确保所有玩家在表示上“身份等距、地位平等”。例如,2个玩家对应线段两端,3个玩家对应等边三角形顶点,4个玩家对应正四面体顶点。这种编码无需可学习参数,训练时随机分配顶点,推理时可直接扩展玩家数,无需重新训练。

核心设计二:Sparse Hub Attention

Gamma-World用稀疏枢纽注意力替代全连接注意力,将计算复杂度从平方级降至线性级。每个智能体仅与自身历史及枢纽token交互,枢纽token汇总信息后广播回各智能体流,避免直接通信。此设计不仅节省算力,还显式编码了“跨智能体信息应经过共享状态瓶颈”的先验。

核心设计三:三阶段蒸馏

Gamma-World通过三阶段训练平衡生成质量与实时性:第一阶段训练双向教师模型;第二阶段训练因果学生模型;第三阶段通过条件Self-Forcing蒸馏将多步采样压缩为4步采样,最终实现24 FPS实时推演。

实验结果

  1. 全面超越现有方法:在多人Minecraft环境中,Gamma-World在记忆、空间定位、移动、建造等方面全面领先,FVD指标平均降幅超40%。
  2. 零样本泛化:仅用双人数据训练,推理时直接生成四路同步视角,验证了单纯形编码的扩展能力。
  3. 真实机器人应用:模型成功迁移至RealOmin-Open数据集的双臂机器人协同任务,生成未来帧保持协同运动。

小结

Gamma-World通过单纯形编码、稀疏枢纽注意力和条件师生蒸馏三项设计,解决了多智能体世界建模中的核心问题。其方法论强调将问题结构的理解直接编码进架构,而非依赖模型隐式学习。这一成果为多智能体仿真提供了全新基础设施,也为Physical AI领域开辟了新方向。

论文链接:https://github.com/nv-tlabs/Gamma-World
项目主页:https://research.nvidia.com/labs/sil/projects/gamma-world/

原文链接
本文链接:https://kx.umi6.com/article/36319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
2026-05-27 17:38:17
卢伟冰:AI是手机行业最大的增量机会 今年七八月将发布新一代OS
2026-05-26 19:48:54
沙钢签约钉钉,让悟空成为每一位“钢铁人”的生产力工具
2026-05-28 17:29:36
湖北广电成立科技新公司 含AI及集成电路芯片业务
2026-05-28 09:13:28
7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”
2026-05-28 16:29:54
MiMo-V2.5系列API永久降价 最高降幅达99%
2026-05-27 08:15:28
Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行
2026-05-29 08:56:34
战略加码AI算力 中环新能源(01735)预亮相2026 SNEC
2026-05-28 13:25:46
DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速
2026-05-28 22:40:41
鹰眼2.0来了!NBA引入AI系统替代人工出界判罚 减少球权争议
2026-05-29 15:13:31
1400亿Agent入场,“流量”这条护城河要塌了
2026-05-27 18:40:58
中信建投:机器人是AI最好的物理载体之一 看好板块行情演绎
2026-05-27 08:19:53
特朗普任命美前司法部长邦迪加入白宫人工智能顾问委员会
2026-05-27 09:22:28
24小时热文
更多
扫一扫体验小程序