8月28日,腾讯混元宣布开源端到端视频音效生成模型Hunyuan-Foley,用户只需输入视频和文字即可生成电影级音效。该模型突破了AI视频“只能看不能听”的局限,实现“看懂画面、读懂文字、配准声音”,适用于短视频、电影、广告和游戏等领域。团队构建了10万小时高质量TV2A数据集,使模型具备强大泛化能力,可在复杂场景下生成音画一致的高质量音频。目前,模型已开放体验入口及相关代码和技术报告链接。
原文链接
本文链接:https://kx.umi6.com/article/24339.html
转载请注明文章出处
相关推荐
换一换
亚马逊云科技发布 Nova 2 系列 AI 模型,同步推出 Nova Forge 定制服务
2025-12-03 09:12:53
马斯克力挺 AMD:在中小型 AI 模型方面相当不错,暗示将降低对英伟达依赖
2025-09-13 16:27:30
美国《连线》杂志:再见,GPT5;你好,千问!
2025-12-29 15:27:00
浙江大学发布高精准基因组设计AI模型
2025-07-09 11:05:23
谷歌发布 Gemini 2.5 Computer Use 模型:专攻浏览器交互,支持 13 种操作
2025-10-09 09:08:03
这个AI精准模拟人类行为大脑状态,上Nature了
2025-07-15 17:48:52
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
2025-12-29 15:29:17
放开成人内容,OpenAI是为了提升性能?
2025-10-22 17:49:49
港科大团队开发出新 AI 模型:2 至 4 张 X 光片构建 3D 影像,相比 CT 扫描辐射量降低 99%
2025-07-17 23:30:57
英伟达CEO黄仁勋:未来十年世界上大部分汽车将实现自动驾驶或高度自动驾驶
2026-01-06 15:13:14
谷歌最强模型 Gemini 3.0 被曝 10 月 22 日登场:延迟、成本更低,编程等性能更强
2025-10-15 09:32:44
美国法官裁定:Meta用书训练AI模型属“合理使用”范畴
2025-06-26 21:02:38
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
616 文章
411962 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34