标题:清华南洋理工联合发布首个音频大模型可信度评估基准
首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust发布。由南洋理工和清华大学领衔的研究团队指出,现有评估框架多聚焦文本模态或覆盖安全维度有限,未充分考虑音频模态特性。
AudioTrust创新性提出六大核心维度(公平性、幻觉、安全性、隐私、鲁棒性和身份验证),并深入探究音频模态独特安全问题。该基准及评估平台现已全面开放。
AudioTrust采用两阶段架构:第一阶段支持数据加载与高效推理,第二阶段实现自动化多维度评估。六大核心维度包括Fairness、Hallucination、Safety、Privacy、Robustness、Authentication,每个维度均涵盖多场景与特征分类。
实验结果显示,主流模型在公平性上存在系统性偏差,幻觉问题多源于信号处理错误,安全性方面开源模型易受攻击,隐私保护表现不一,鲁棒性依赖音频扰动类型,身份验证中闭源模型更具优势。
AudioTrust通过构建4,420+条真实场景数据集,设计9项音频特定指标,揭示开源与闭源ALLMs在高风险任务中的信任边界与脆弱点,为后续研究奠定基础。
论文与代码已公开:论文链接[https://arxiv.org/pdf/2505.16211],代码链接[https://github.com/JusperLee/AudioTrust],数据集链接[https://huggingface.co/datasets/JusperLee/AudioTrust]。
原文链接
本文链接:https://kx.umi6.com/article/19636.html
转载请注明文章出处
相关推荐
换一换
4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型
2026-06-15 15:56:09
BEV 杀入具身智能:跨维把机器人数据带上 Scaling 快车道
2026-06-12 12:28:26
难上热搜的高考数学,我拿ChatGPT和豆包PK了一把!
2026-06-08 17:37:12
AI正加速劣质假新闻传播 詹姆斯发声吐槽:你们觉得呢
2026-06-08 10:19:48
AI给2007年的显卡续命!Copilot清理R600驱动:AMD HD 2000至HD6000系列显卡重获新生
2026-06-09 19:34:12
库克亲自掌舵!一场会议改写苹果AI发展走向
2026-06-09 00:53:08
宇树机器人要登珠峰了!
2026-06-15 18:02:04
华硕电脑携手腾讯云达成战略合作 端云协同构筑AI PC服务新生态
2026-06-12 11:27:45
月薪高达13万元!科技大厂掀起AI人才争夺战:35岁从业者成抢手资源
2026-06-08 12:26:28
从ICRA到CVPR,机器人圈最近到底在聊什么?|北京·周三晚
2026-06-15 18:03:38
从诺奖项目到生成式药物设计,Latent Labs 创始人 Simon Kohl:AI 正在让生物学进入「可编程时代」 | CVPR 2026
2026-06-09 16:28:09
AI造假骗单坑哭无数商家 微信警告:后果比你想得严重
2026-06-09 19:38:23
人类首次!乌克兰使用“终结者”AI无人机自主猎杀俄士兵
2026-06-14 13:07:59
788 文章
686540 浏览
24小时热文
更多
-
2026-06-16 00:21:03 -
2026-06-16 00:19:28 -
2026-06-15 21:10:19