7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
原文链接
本文链接:https://kx.umi6.com/article/21227.html
转载请注明文章出处
相关推荐
换一换
阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考
2025-07-04 18:49:52
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
Stability AI重磅更新:一键无痕P图抠图,3分钟整首歌曲直接生成
2024-07-11 19:39:30
OpenAI 深夜炸场:家族最强视频生成模型 Sora 2 发布,还能同步生成音频
2025-10-01 08:39:42
微博 CEO 王高飞回应能否让 AI 手机自己发微博:需要确认
2025-12-08 09:17:44
张予彤出任月之暗面总裁
2025-12-08 19:45:13
Gartner:汽车行业AI投资热潮难以长期维持 预计2029年只有约5%车厂保持强劲AI投入
2025-12-09 10:33:13
梁文锋,Nature全球年度十大科学人物!
2025-12-09 10:25:17
OpenAI:我们的工具能让员工每天节省最多一小时专业工作时间
2025-12-08 21:49:12
黄仁勋:AI末日永远不会发生
2025-12-08 10:21:57
机构:2026年全球800G以上光收发模块达近6300万组
2025-12-08 17:39:25
谷歌 Gemini 网页版更新“我的内容”文件夹,可一键访问生成的 AI 图像
2025-12-08 08:11:29
联想入股原力聚合机器人科技公司
2025-12-08 11:27:54
588 文章
328525 浏览
24小时热文
更多
-
2025-12-09 13:38:33 -
2025-12-09 13:37:28 -
2025-12-09 12:38:19