10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

2024-10-26 17:32:09

智慧棱镜

发布在

科普

阅读：1538

标题：10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

斯坦福大学吴佳俊团队与麻省理工学院合作的最新成果，让我们离实时生成开放世界游戏更进一步。通过单一图像，用户可在实时交互下生成无限延展的3D场景。

只需上传一张图片，即可进入由AI创造的虚拟世界。用户通过移动视角和输入文本提示，实时决定接下来的探索方向和场景内容。

从鸟瞰视角可以看到虚拟世界的生成过程。无论是魔幻森林、现实都市还是宁静乡村，WonderWorld都能瞬间呈现。

这项技术名为WonderWorld，由斯坦福大学吴佳俊团队和麻省理工学院共同研发。WonderWorld提供交互式场景，用户可从第一视角进行移动。

资深游戏创业者、GOAT Gaming的首席AI官对此表示兴奋：“它还能处理非真实感的图片，有无限可能！”在硅谷广受欢迎的Hacker News上，WonderWorld一度成为热门话题。

传统生成式AI方法需数十分钟或数小时生成场景，而WonderWorld仅需10秒，真正开启了实时交互式3D世界生成的大门。

WonderWorld的核心突破在于其惊人的速度。研究团队开发的FLAGS（Fast LAyered Gaussian Surfels）场景表示方法，能在10秒内生成新场景，比现有方法快近100倍。

WonderWorld生成新场景时，先生成一张2D图片，再从图片生成三张layer images，最后生成FLAGS表示。FLAGS由三层Gaussian surfels组成：天空层、背景层和前景层，每一层都从对应的layer image生成。FLAGS表示的每个Gaussian surfel对应layer image上的像素，可使用估计的像素级别几何信息来加速优化过程。

WonderWorld还提出Guided depth diffusion，利用已生成3D场景的深度信息作为指导，确保新场景的深度与之匹配，避免几何裂缝。

实验结果显示，WonderWorld明显优于其他基准方法，并且更受用户偏爱。从一张输入图片，WonderWorld可根据不同用户控制生成不同场景内容。

主要作者来自斯坦福大学吴佳俊团队。论文一作俞洪兴，斯坦福大学五年级博士生，研究领域为重建可交互的物理世界。吴佳俊现任斯坦福大学助理教授，曾是清华大学姚班学生，被誉为“清华十大学神”之一。论文链接：https://arxiv.org/pdf/2406.09394

参考链接： [1] https://x.com/Koven_Yu/status/1835769026934673595 [2] https://kovenyu.com/wonderworld

原文链接

本文链接：https://kx.umi6.com/article/7904.html

转载请注明文章出处

WonderWorld