7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
原文链接
本文链接:https://kx.umi6.com/article/21227.html
转载请注明文章出处
相关推荐
换一换
阿里CEO吴泳铭:公司批准林俊旸辞职
2026-03-05 12:16:36
独家|阿里组织架构调整:通义实验室升级为事业部 李飞飞出任阿里云CTO
2026-04-08 17:04:05
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
通义发布并开源首个支持影视级多场景配音的多模态大模型
2026-03-16 16:13:40
阿里巴巴大模型品牌统一为千问
2026-03-02 12:29:20
OpenAI 深夜炸场:家族最强视频生成模型 Sora 2 发布,还能同步生成音频
2025-10-01 08:39:42
Stability AI重磅更新:一键无痕P图抠图,3分钟整首歌曲直接生成
2024-07-11 19:39:30
“这些图片居然都是AI的”热搜 网友:你告诉我什么是真的!
2026-04-24 23:40:17
千问总裁吴嘉:“AI办事”对外开放 首家接入东方航空
2026-04-23 11:02:47
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24 05:49:31
德银警示氦气供应风险
2026-04-24 17:27:38
横店影视:将向“以IP为核心的全链路运营模式”转型升级
2026-04-23 15:14:07
联检科技等成立新公司 含AI及物联网业务
2026-04-24 15:19:39
692 文章
549431 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21