1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
只因一个“:”,大模型全军覆没
近日,研究发现一个冒号或特定推理开头语(如“Thought process:”)即可欺骗多个主流大语言模型(LLM),包括GPT-4o、Claude-4和LLaMA3-70B等。腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究团队揭示了这一漏洞,指出其具有跨语言普遍性,并可通过嵌入相似度搜索生成更多对抗样本。为解决该问题,团队开发出增强数据集训练的‘评委’模型Master-RM,将假阳性率降至接近0%,同时保持高评估一致性。研究强调了强化学习验证流程中的安全挑战,未来需进一步提升模型稳健性。论文已公开,相关资源可在Hugging Face平台获取。
量子黑客
07-15 17:47:42
LLM
Master-RM
假阳性率
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序