极速推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

近日，Noiz AI联合香港科技大学与清华大学，正式开源极速音频生成大模型AudioX-Turbo。该模型直击现有音频模型“生成慢、控制弱”的痛点，支持文本、视频、图像等多模态输入。技术上，其通过分布匹配对抗蒸馏将生成步骤减至4步，单张4090显卡生成10秒音频仅需0.24秒，计算量骤降25倍。此外，团队构建了920万量级“强指令”数据集，使模型首次实现精确时间戳控制，精准理解复杂指令。目前，其代码与模型权重已全部开源，将赋能互动剧配音、游戏实时拟音及AI直播等场景。

原文链接