综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年12月17日,Meta发布多模态音频分离模型SAM Audio,可从复杂音频中提取特定声音。该模型支持文本、视觉和时间片段提示,用户可通过输入关键词、点击视频目标或标记时间段实现精准音频分离,例如提取乐队演出中的吉他声或过滤嘈杂环境音。其核心引擎Perception Encoder Audiovisual(PE-AV)基于开源技术构建,扩展了计算机视觉在音频领域的应用。同时,Meta推出首个真实场景音频分离基准测试SAM Audio-Bench及自动评估模型SAM Audio Judge,进一步推动音频处理技术发展。
原文链接
加载更多
暂无内容