标题:清华南洋理工联合发布首个音频大模型可信度评估基准
首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust发布。由南洋理工和清华大学领衔的研究团队指出,现有评估框架多聚焦文本模态或覆盖安全维度有限,未充分考虑音频模态特性。
AudioTrust创新性提出六大核心维度(公平性、幻觉、安全性、隐私、鲁棒性和身份验证),并深入探究音频模态独特安全问题。该基准及评估平台现已全面开放。
AudioTrust采用两阶段架构:第一阶段支持数据加载与高效推理,第二阶段实现自动化多维度评估。六大核心维度包括Fairness、Hallucination、Safety、Privacy、Robustness、Authentication,每个维度均涵盖多场景与特征分类。
实验结果显示,主流模型在公平性上存在系统性偏差,幻觉问题多源于信号处理错误,安全性方面开源模型易受攻击,隐私保护表现不一,鲁棒性依赖音频扰动类型,身份验证中闭源模型更具优势。
AudioTrust通过构建4,420+条真实场景数据集,设计9项音频特定指标,揭示开源与闭源ALLMs在高风险任务中的信任边界与脆弱点,为后续研究奠定基础。
论文与代码已公开:论文链接[https://arxiv.org/pdf/2505.16211],代码链接[https://github.com/JusperLee/AudioTrust],数据集链接[https://huggingface.co/datasets/JusperLee/AudioTrust]。
原文链接
本文链接:https://kx.umi6.com/article/19636.html
转载请注明文章出处
相关推荐
.png)
换一换
AI陪伴玩具 是营销噱头还是“情感伙伴”?|一线
2025-07-18 09:37:47
谷歌推出AI商务通话功能
2025-07-18 10:38:36
美批准对华销售H20芯片 中方回应
2025-07-18 14:43:02
474 文章
57406 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01