1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:国产全AI游戏来了?!大模型直出开放世界游戏,有声可交互

距离普通人凭想法就能做出游戏的时代,又近了一步。AI游戏生成天花板今年以来不断突破,国产游戏AI团队也加入并推动了新的高度。巨人网络发布了“千影 QianYing”有声游戏生成大模型,其中包括游戏视频生成大模型YingGame、视频配音大模型YingSound。

用一段文字、一张图,就能生成模拟开放世界游戏的视频,并且有声、可交互,可操控角色的多种动作。YingGame是一个面向开放世界游戏的视频生成大模型,首次实现了角色多样动作的交互控制和自定义游戏角色,具备更好的游戏物理仿真特性。从生成的视频中,无论是汽车碰撞、火焰燃烧,还是水中慢走、障碍物自动绕行,都表现出出色的物理规律遵循能力。YingGame能够理解用户的输入交互,包括文本、图像或鼠标、键盘按键等操作信号,从而让用户能够操控游戏角色的多样动作。视频展示了角色在开枪、变身、施法、使用道具、攀爬、匍匐、跑跳等肢体动作的交互,相比同类模型更加丰富、丝滑。YingGame还支持输入一张角色图片,实现角色自定义生成,并对角色主体实现精细化控制。

此外,YingGame还生成了第一人称视角的游戏画面,具有很强的游戏沉浸感。技术上,YingGame通过融合跨模态特征、细粒度角色表征、运动增强与多阶段训练策略,以及构建高效、高质量游戏视频训练数据管线,实现内容的可交互能力。在交互性实现上,YingGame结合了多个Interactive Network模块,包括MMIN、IMN和ICN。

除了YingGame,巨人网络还发布了YingSound,用于视频配音场景的多模态音效生成大模型。YingSound能够给无声视频配音效,实现音画同步,具备超强的时间对齐和视频语义理解能力。通过示例可以看到,模型能生成与场景高度匹配的音效,包括开镜、炮轰、射击等声音,完美还原坦克进攻与士兵防守射击的声音。在动漫场景中,模型展示了对复杂剧情的理解能力。在真实世界场景中,模型能够精准生成每次击球产生的音效,甚至包括球员跑动时鞋底与地面摩擦的声音。

研究团队公开了YingSound的核心模块,包括基于DiT的Flow-Matching构建的音效生成模块和多模态思维链控制模块。这些模块确保了音效生成的精准支持。团队精心构建了符合行业标准的V2A数据集,为后续研究与开发提供了坚实基础。通过客观指标测评,YingSound在整体效果、时间对齐和视频语义理解等客观测评上均达到业界领先水平。

长期来看,视频生成技术因其展现出的取代游戏引擎的潜力,势必会对游戏行业带来颠覆式创新。通过文字描述就能创作一个游戏,不再是异想天开。AI将带来游戏创作平权,未来游戏创作的唯一限制可能只是创作者们的想象力。

原文链接
本文链接:https://kx.umi6.com/article/10212.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频
2024-06-18 14:10:52
巨人网络发布“千影”有声游戏生成大模型,目标让普通人也能开发游戏
2024-12-12 18:02:04
Sora二代实机演示曝光!解锁图生视频,奥特曼暗示:期待周一
2024-12-09 13:23:54
24小时热文
更多
扫一扫体验小程序