标题:清华南洋理工联合发布首个音频大模型可信度评估基准
首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust发布。由南洋理工和清华大学领衔的研究团队指出,现有评估框架多聚焦文本模态或覆盖安全维度有限,未充分考虑音频模态特性。
AudioTrust创新性提出六大核心维度(公平性、幻觉、安全性、隐私、鲁棒性和身份验证),并深入探究音频模态独特安全问题。该基准及评估平台现已全面开放。
AudioTrust采用两阶段架构:第一阶段支持数据加载与高效推理,第二阶段实现自动化多维度评估。六大核心维度包括Fairness、Hallucination、Safety、Privacy、Robustness、Authentication,每个维度均涵盖多场景与特征分类。
实验结果显示,主流模型在公平性上存在系统性偏差,幻觉问题多源于信号处理错误,安全性方面开源模型易受攻击,隐私保护表现不一,鲁棒性依赖音频扰动类型,身份验证中闭源模型更具优势。
AudioTrust通过构建4,420+条真实场景数据集,设计9项音频特定指标,揭示开源与闭源ALLMs在高风险任务中的信任边界与脆弱点,为后续研究奠定基础。
论文与代码已公开:论文链接[https://arxiv.org/pdf/2505.16211],代码链接[https://github.com/JusperLee/AudioTrust],数据集链接[https://huggingface.co/datasets/JusperLee/AudioTrust]。
原文链接
本文链接:https://kx.umi6.com/article/19636.html
转载请注明文章出处
相关推荐
.png)
换一换
音频大模型安全可信度的全面“体检”!清华南洋理工联手打造
2025-06-03 18:00:57
定制专属 emoji 形象,小米超级小爱语音助手上线“定制分身小人”
2025-09-09 14:15:41
“出货量”“渗透率”现积极信号 “AI+”效应推升沪市产业链公司景气度
2025-09-08 21:06:20
中信证券:首个“AI+”行业政策落地 电力数智化发展前景可期
2025-09-09 09:10:22
杭州:开发搭载国产人工智能芯片的边缘计算服务器、AI服务器等产品
2025-09-09 14:20:38
五年内预计“烧钱”超千亿美元 OpenAl试图自研芯片控制成本
2025-09-08 19:03:01
我国已发布人工智能国家标准30项 15项人形机器人国标正在研制
2025-09-09 16:20:42
万字长文实录:RL 界与 CV 界的“世界模型”有什么不同?丨GAIR Live
2025-09-08 18:05:56
特斯拉 TeslaAI 官方微博发布首条视频:人形机器人卖爆米花,还可与顾客合影互动
2025-09-09 11:11:04
马斯克xAI自研推理芯片曝光!代号X1、台积电3纳米工艺、明年就量产
2025-09-08 18:00:37
杭州:到2027年 全市人工智能终端产业规模力争达到3000亿元
2025-09-09 14:19:29
AI终局之战:美国目前赢了技术,但中国会赢下未来?
2025-09-09 16:19:36
Hinton万万没想到,前女友用ChatGPT跟他闹分手
2025-09-08 17:02:02
540 文章
174342 浏览
24小时热文
更多

-
2025-09-09 21:25:12
-
2025-09-09 21:23:51
-
2025-09-09 21:22:33