2025年8月1日,北航、中关村实验室等机构联合发布全球首个具身智能体安全评测基准AGENTSAFE,揭示顶级大模型如GPT-4o、Grok等在‘越狱’攻击下指挥机器人执行危险动作的风险。研究显示,经过‘越狱’处理的指令可让机器人完成点燃沙发、投掷物品等危险行为,安全性急剧下降。AGENTSAFE基于AI2-THOR平台构建,涵盖45种场景和9900条风险指令,采用端到端闭环设计,填补了对抗性安全评测空白,并荣获ICML 2025杰出论文奖。团队呼吁关注模型安全性,避免真实世界部署风险。
原文链接
本文链接:https://kx.umi6.com/article/22839.html
转载请注明文章出处
相关推荐
换一换
谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎 profile-avatar
2024-12-05 12:59:26
联汇科技发布万物具身智能体平台OmAgent,让AI智能体走进“物理世界”
2025-07-25 15:24:49
牛津、斯坦福大学新研究:能“思考”的 AI 推理模型更易受到越狱攻击
2025-11-08 21:58:37
DeepMind最强“基础世界模型”诞生
2024-12-05 12:06:09
什么会影响大模型安全?NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系
2024-10-31 15:51:40
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
英特尔第一季度营收136亿美元 同比增长7.2%
2026-04-24 08:00:05
飞书项目开放平台焕新升级,全面迈向“AI Friendly”
2026-04-23 18:20:13
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24 05:49:31
科大讯飞发布燎原N30m笔记本,重塑全栈国产AIPC新标杆
2026-04-22 21:27:36
信息发展新设子公司 含AI及卫星相关业务
2026-04-24 14:17:44
联检科技等成立新公司 含AI及物联网业务
2026-04-24 15:19:39
香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖
2026-04-22 18:21:40
725 文章
559314 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38