2025年8月,宾夕法尼亚大学研究发现,GPT-4o Mini等大语言模型易受人类心理技巧影响,突破安全限制。通过权威、承诺、喜爱等七大说服策略,如假借“吴恩达说的”或先轻微请求再升级要求,可显著提高模型服从性。实验显示,利用这些话术,让AI骂人或提供敏感信息的成功率从32%飙升至100%。研究人员警示,此漏洞可能被恶意利用,加剧AI安全隐患。目前,OpenAI和Anthropic已采取措施应对,如修正训练方式或提前引入有害数据以增强免疫力。未来需更坚韧的AI安全机制来应对类似风险。
原文链接
本文链接:https://kx.umi6.com/article/24543.html
转载请注明文章出处
相关推荐
.png)
换一换
吴恩达押注Agent新成果官宣!零样本标记实现图片目标检测
2025-02-07 13:55:01
OpenAI发布迷你AI模型GPT-4o mini
2024-07-18 23:50:44
吴恩达推出免费课程,带你玩转 OpenAI 推理模型 o1
2024-12-21 14:57:27
吴恩达AI基金成立亚洲营运中心
2024-10-30 15:18:00
又有 AI 创始人卖身大厂:吴恩达第一位博士生加入亚马逊,带走 25% 员工
2024-09-02 13:56:08
GPT-4o mini实力霸榜,限时2个月微调不花钱,每天200万训练token免费薅
2024-07-26 19:36:25
吴恩达最新来信:是时候关注并行智能体了
2025-08-30 17:54:14
OpenAI发布迷你AI模型GPT-4o mini;抖音将投亿级资源补贴微短剧|AI daily早新闻
2024-07-19 13:15:05
GPT-4o mini实测:小模型也好用,低价更是杀手锏
2024-07-20 10:12:54
OpenAI推出“小”模型GPT-4o Mini,开始卷性价比了?
2024-07-19 12:54:48
OpenAI开打价格战!GPT-4o最新变种价格骤降96%-97%
2024-07-19 01:40:54
百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini
2025-01-26 16:14:16
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
2024-07-24 16:09:17
514 文章
188386 浏览
24小时热文
更多

-
2025-09-03 12:45:43
-
2025-09-03 12:44:37
-
2025-09-03 11:44:20