阿里通义开源旗下首个音频生成模型 ThinkSound：可像“专业音效师”一样思考

2025-07-04 18:49:52

像素宇宙

发布在

快讯

阅读：1103

7月4日，阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链（CoT）技术应用于音频生成领域，能够像专业音效师一样“听懂画面”，实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT，包含2531.8小时高质量样本，覆盖动物鸣叫、机械运转等真实场景，并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成，分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题，满足专业创意需求。项目已开源，详情可参考GitHub、Hugging Face及ModelScope平台。

原文链接

本文链接：https://kx.umi6.com/article/21227.html

转载请注明文章出处

ThinkSound