只因一个“：”，大模型全军覆没

2025-07-15 17:47:42

只因一个“：”，大模型全军覆没

量子黑客

发布在

快讯

阅读：424

近日，研究发现一个冒号或特定推理开头语（如“Thought process：”）即可欺骗多个主流大语言模型（LLM），包括GPT-4o、Claude-4和LLaMA3-70B等。腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究团队揭示了这一漏洞，指出其具有跨语言普遍性，并可通过嵌入相似度搜索生成更多对抗样本。为解决该问题，团队开发出增强数据集训练的‘评委’模型Master-RM，将假阳性率降至接近0%，同时保持高评估一致性。研究强调了强化学习验证流程中的安全挑战，未来需进一步提升模型稳健性。论文已公开，相关资源可在Hugging Face平台获取。

原文链接

本文链接：https://kx.umi6.com/article/21783.html

转载请注明文章出处

LLM