多模态音频分离

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

正文：2025年12月17日，Meta发布多模态音频分离模型SAM Audio，可从复杂音频中提取特定声音。该模型支持文本、视觉和时间片段提示，用户可通过输入关键词、点击视频目标或标记时间段实现精准音频分离，例如提取乐队演出中的吉他声或过滤嘈杂环境音。其核心引擎Perception Encoder Audiovisual（PE-AV）基于开源技术构建，扩展了计算机视觉在音频领域的应用。同时，Meta推出首个真实场景音频分离基准测试SAM Audio-Bench及自动评估模型SAM Audio Judge，进一步推动音频处理技术发展。

原文链接