标题:清华南洋理工联合发布首个音频大模型可信度评估基准
首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust发布。由南洋理工和清华大学领衔的研究团队指出,现有评估框架多聚焦文本模态或覆盖安全维度有限,未充分考虑音频模态特性。
AudioTrust创新性提出六大核心维度(公平性、幻觉、安全性、隐私、鲁棒性和身份验证),并深入探究音频模态独特安全问题。该基准及评估平台现已全面开放。
AudioTrust采用两阶段架构:第一阶段支持数据加载与高效推理,第二阶段实现自动化多维度评估。六大核心维度包括Fairness、Hallucination、Safety、Privacy、Robustness、Authentication,每个维度均涵盖多场景与特征分类。
实验结果显示,主流模型在公平性上存在系统性偏差,幻觉问题多源于信号处理错误,安全性方面开源模型易受攻击,隐私保护表现不一,鲁棒性依赖音频扰动类型,身份验证中闭源模型更具优势。
AudioTrust通过构建4,420+条真实场景数据集,设计9项音频特定指标,揭示开源与闭源ALLMs在高风险任务中的信任边界与脆弱点,为后续研究奠定基础。
论文与代码已公开:论文链接[https://arxiv.org/pdf/2505.16211],代码链接[https://github.com/JusperLee/AudioTrust],数据集链接[https://huggingface.co/datasets/JusperLee/AudioTrust]。
原文链接
本文链接:https://kx.umi6.com/article/19636.html
转载请注明文章出处
相关推荐
换一换
音频大模型安全可信度的全面“体检”!清华南洋理工联手打造
2025-06-03 18:00:57
a16z:90%的AI公司没有护城河
2025-12-24 16:43:36
广西面向各学段加强人工智能教育,今年全区本科高校所有新生迎来 AI 通识课
2025-12-24 16:45:53
以AI之名,裁员寒流席卷硅谷
2025-12-25 18:52:16
在AI面前,人类终于不说谎了
2025-12-25 18:52:01
小米、OPPO、华为,正在相机化
2025-12-24 16:44:46
联想年度科幻概念片《双子星》官宣 2026 年 1 月 1 日上映
2025-12-25 11:30:57
Counterpoint:全球智能手表出货量预计将在2025年年底同比增长7% 重回增长轨道
2025-12-24 12:39:29
广州:支持人工智能、虚拟现实、元宇宙、超高清视频等技术和游戏电竞产业深度融合
2025-12-25 13:38:28
中国未来,可能会非常缺铜
2025-12-24 18:53:31
消息称 OpenAI 正探讨广告方案:回复中给赞助内容更多权重,并确保“克制”
2025-12-24 23:01:58
CPO,过热了?
2025-12-25 18:53:11
2026 北京亦庄人形机器人半程马拉松开启报名,首届天工 Ultra 夺冠
2025-12-25 17:51:53
673 文章
394235 浏览
24小时热文
更多
-
2025-12-25 23:03:27 -
2025-12-25 23:02:30 -
2025-12-25 22:04:17