7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
原文链接
本文链接:https://kx.umi6.com/article/21227.html
转载请注明文章出处
相关推荐
换一换
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
OpenAI 深夜炸场:家族最强视频生成模型 Sora 2 发布,还能同步生成音频
2025-10-01 08:39:42
阿里CEO吴泳铭:公司批准林俊旸辞职
2026-03-05 12:16:36
阿里巴巴大模型品牌统一为千问
2026-03-02 12:29:20
独家|阿里组织架构调整:通义实验室升级为事业部 李飞飞出任阿里云CTO
2026-04-08 17:04:05
通义发布并开源首个支持影视级多场景配音的多模态大模型
2026-03-16 16:13:40
Stability AI重磅更新:一键无痕P图抠图,3分钟整首歌曲直接生成
2024-07-11 19:39:30
库克亲自掌舵!一场会议改写苹果AI发展走向
2026-06-09 00:53:08
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
2026-06-05 14:59:31
人类药丸?Anthropic为什么要搞AI不扩散条约
2026-06-07 13:33:45
蚂蚁集团推出海外AI支付解决方案 商户可实现全球智能体运营
2026-06-08 19:40:56
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
重估比亚迪,从智驾开始
2026-06-04 21:22:12
716 文章
634239 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08