7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
原文链接
本文链接:https://kx.umi6.com/article/21227.html
转载请注明文章出处
相关推荐
换一换
Stability AI重磅更新:一键无痕P图抠图,3分钟整首歌曲直接生成
2024-07-11 19:39:30
阿里CEO吴泳铭:公司批准林俊旸辞职
2026-03-05 12:16:36
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
OpenAI 深夜炸场:家族最强视频生成模型 Sora 2 发布,还能同步生成音频
2025-10-01 08:39:42
阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考
2025-07-04 18:49:52
阿里巴巴大模型品牌统一为千问
2026-03-02 12:29:20
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
2026-03-09 12:34:15
访问量超预期!腾讯版小龙虾爆火致服务不稳 公司致歉:已紧急扩容10倍
2026-03-10 12:13:43
AI短剧《霍去病》走红!导演澄清制作细节:3000元仅算力成本
2026-03-08 17:25:18
华泰证券:超配电力链中上游品种 内需与AI是能源之外的主要线索
2026-03-06 20:36:01
卡帕西开源Agent自进化训练框架,5分钟一轮实验,48h内揽星9.5k
2026-03-09 15:50:15
AMD 扩展锐龙 AI 嵌入式处理器产品组合 为工业与 AI 边缘解决方案提供可扩展的高效 AI 计算能力
2026-03-10 11:07:44
青岛:设立首批16个人工智能OPC专业园区
2026-03-10 08:57:52
665 文章
458393 浏览
24小时热文
更多
-
2026-03-10 16:39:18 -
2026-03-10 16:38:21 -
2026-03-10 16:37:05