假阳性率 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

只因一个“：”，大模型全军覆没

近日，研究发现一个冒号或特定推理开头语（如“Thought process：”）即可欺骗多个主流大语言模型（LLM），包括GPT-4o、Claude-4和LLaMA3-70B等。腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究团队揭示了这一漏洞，指出其具有跨语言普遍性，并可通过嵌入相似度搜索生成更多对抗样本。为解决该问题，团队开发出增强数据集训练的‘评委’模型Master-RM，将假阳性率降至接近0%，同时保持高评估一致性。研究强调了强化学习验证流程中的安全挑战，未来需进一步提升模型稳健性。论文已公开，相关资源可在Hugging Face平台获取。

原文链接