标题:10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成
斯坦福大学吴佳俊团队与麻省理工学院合作的最新成果,让我们离实时生成开放世界游戏更进一步。通过单一图像,用户可在实时交互下生成无限延展的3D场景。
只需上传一张图片,即可进入由AI创造的虚拟世界。用户通过移动视角和输入文本提示,实时决定接下来的探索方向和场景内容。
从鸟瞰视角可以看到虚拟世界的生成过程。无论是魔幻森林、现实都市还是宁静乡村,WonderWorld都能瞬间呈现。
这项技术名为WonderWorld,由斯坦福大学吴佳俊团队和麻省理工学院共同研发。WonderWorld提供交互式场景,用户可从第一视角进行移动。
资深游戏创业者、GOAT Gaming的首席AI官对此表示兴奋:“它还能处理非真实感的图片,有无限可能!”在硅谷广受欢迎的Hacker News上,WonderWorld一度成为热门话题。
传统生成式AI方法需数十分钟或数小时生成场景,而WonderWorld仅需10秒,真正开启了实时交互式3D世界生成的大门。
WonderWorld的核心突破在于其惊人的速度。研究团队开发的FLAGS(Fast LAyered Gaussian Surfels)场景表示方法,能在10秒内生成新场景,比现有方法快近100倍。
WonderWorld生成新场景时,先生成一张2D图片,再从图片生成三张layer images,最后生成FLAGS表示。FLAGS由三层Gaussian surfels组成:天空层、背景层和前景层,每一层都从对应的layer image生成。FLAGS表示的每个Gaussian surfel对应layer image上的像素,可使用估计的像素级别几何信息来加速优化过程。
WonderWorld还提出Guided depth diffusion,利用已生成3D场景的深度信息作为指导,确保新场景的深度与之匹配,避免几何裂缝。
实验结果显示,WonderWorld明显优于其他基准方法,并且更受用户偏爱。从一张输入图片,WonderWorld可根据不同用户控制生成不同场景内容。
主要作者来自斯坦福大学吴佳俊团队。论文一作俞洪兴,斯坦福大学五年级博士生,研究领域为重建可交互的物理世界。吴佳俊现任斯坦福大学助理教授,曾是清华大学姚班学生,被誉为“清华十大学神”之一。论文链接:https://arxiv.org/pdf/2406.09394
参考链接: [1] https://x.com/Koven_Yu/status/1835769026934673595 [2] https://kovenyu.com/wonderworld
.png)

-
2025-09-11 07:49:09
-
2025-09-11 00:45:04
-
2025-09-10 23:43:54