综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,Noiz AI联合香港科技大学与清华大学,正式开源极速音频生成大模型AudioX-Turbo。该模型直击现有音频模型“生成慢、控制弱”的痛点,支持文本、视频、图像等多模态输入。技术上,其通过分布匹配对抗蒸馏将生成步骤减至4步,单张4090显卡生成10秒音频仅需0.24秒,计算量骤降25倍。此外,团队构建了920万量级“强指令”数据集,使模型首次实现精确时间戳控制,精准理解复杂指令。目前,其代码与模型权重已全部开源,将赋能互动剧配音、游戏实时拟音及AI直播等场景。
原文链接
加载更多
暂无内容