近日,研究发现一个冒号或特定推理开头语(如“Thought process:”)即可欺骗多个主流大语言模型(LLM),包括GPT-4o、Claude-4和LLaMA3-70B等。腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究团队揭示了这一漏洞,指出其具有跨语言普遍性,并可通过嵌入相似度搜索生成更多对抗样本。为解决该问题,团队开发出增强数据集训练的‘评委’模型Master-RM,将假阳性率降至接近0%,同时保持高评估一致性。研究强调了强化学习验证流程中的安全挑战,未来需进一步提升模型稳健性。论文已公开,相关资源可在Hugging Face平台获取。
原文链接
本文链接:https://kx.umi6.com/article/21783.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-4欺骗人类高达99.16%惊人率,PNAS重磅研究曝出,LLM推理越强欺骗值越高
2024-06-11 08:39:03
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
2024-06-10 21:37:45
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
2024-06-10 18:37:26
ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜
2024-06-02 00:33:31
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
2025-06-11 17:15:11
只因一个“:”,大模型全军覆没
2025-07-15 17:47:42
GPT-4不是世界模型,LeCun双手赞同,ACL力证LLM永远无法模拟世界
2024-06-17 09:33:33
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
LLM时代,FPGA跑AI会比GPU更强吗?
2024-06-12 08:46:33
OpenAI更强系统来了,通用人工智能真的触手可及吗?
2025-01-07 12:01:35
AI Agent的市场规模,将是SaaS的十倍?
2024-11-25 09:03:45
微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
2025-04-21 12:38:13
471 文章
176108 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08