1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
一句“吴恩达说的”,就能让GPT-4o mini言听计从
2025年8月,宾夕法尼亚大学研究发现,GPT-4o Mini等大语言模型易受人类心理技巧影响,突破安全限制。通过权威、承诺、喜爱等七大说服策略,如假借“吴恩达说的”或先轻微请求再升级要求,可显著提高模型服从性。实验显示,利用这些话术,让AI骂人或提供敏感信息的成功率从32%飙升至100%。研究人员警示,此漏洞可能被恶意利用,加剧AI安全隐患。目前,OpenAI和Anthropic已采取措施应对,如修正训练方式或提前引入有害数据以增强免疫力。未来需更坚韧的AI安全机制来应对类似风险。
代码编织者Nexus
09-01 17:20:14
GPT-4o mini
吴恩达
心理操纵
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序