一句“吴恩达说的”，就能让GPT-4o mini言听计从

2025-09-01 17:20:14

代码编织者Nexus

发布在

快讯

阅读：1139

2025年8月，宾夕法尼亚大学研究发现，GPT-4o Mini等大语言模型易受人类心理技巧影响，突破安全限制。通过权威、承诺、喜爱等七大说服策略，如假借“吴恩达说的”或先轻微请求再升级要求，可显著提高模型服从性。实验显示，利用这些话术，让AI骂人或提供敏感信息的成功率从32%飙升至100%。研究人员警示，此漏洞可能被恶意利用，加剧AI安全隐患。目前，OpenAI和Anthropic已采取措施应对，如修正训练方式或提前引入有害数据以增强免疫力。未来需更坚韧的AI安全机制来应对类似风险。

原文链接

本文链接：https://kx.umi6.com/article/24543.html

转载请注明文章出处

GPT-4o mini