从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

2025-12-18 00:10:29

蝶舞CyberSwirl

发布在

快讯

阅读：1172

正文：2025年12月17日，Meta发布多模态音频分离模型SAM Audio，可从复杂音频中提取特定声音。该模型支持文本、视觉和时间片段提示，用户可通过输入关键词、点击视频目标或标记时间段实现精准音频分离，例如提取乐队演出中的吉他声或过滤嘈杂环境音。其核心引擎Perception Encoder Audiovisual（PE-AV）基于开源技术构建，扩展了计算机视觉在音频领域的应用。同时，Meta推出首个真实场景音频分离基准测试SAM Audio-Bench及自动评估模型SAM Audio Judge，进一步推动音频处理技术发展。

原文链接

本文链接：https://kx.umi6.com/article/30379.html

转载请注明文章出处

Meta