1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。

原文链接
本文链接:https://kx.umi6.com/article/21227.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考
2025-07-04 18:49:52
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
Stability AI重磅更新:一键无痕P图抠图,3分钟整首歌曲直接生成
2024-07-11 19:39:30
博通公司股价盘初大涨15%市值增长2200亿美元 多家机构集体上调其目标价
2025-09-05 22:27:31
通用人工智能就在身边,为何我们感知却不明显?
2025-09-08 09:58:00
AI里最大的Bug,也是人类文明最伟大的起点
2025-09-08 16:00:14
通义千问系列最强大的语言模型:Qwen3-Max-Preview 上线
2025-09-06 00:26:52
美国加州、特拉华州检察长警告 OpenAI:对伤害儿童的行为应当零容忍
2025-09-06 21:38:26
消息称 ASML 承诺入股法国 AI 企业 Mistral,将成后者最大股东
2025-09-08 08:57:36
两部门:基于人工智能技术开展可控核聚变智能控制系统研究
2025-09-08 10:58:39
开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
2025-09-08 13:58:15
五年内预计“烧钱”超千亿美元 OpenAl试图自研芯片控制成本
2025-09-08 19:03:01
赋能赋值赋智作用凸显 工业互联网与人工智能加速融合
2025-09-08 07:53:42
24小时热文
更多
扫一扫体验小程序