综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月7日,牛津、斯坦福大学联合研究发现,具备“思考”能力的AI推理模型更易受到越狱攻击。研究人员提出“链式思维劫持”方法,测试显示在部分情况下攻击成功率超80%。这种攻击通过将有害指令隐藏在无害推理步骤中,绕过AI安全防护,可能生成危险内容如武器制作指南或泄露敏感信息。随着推理链延长,成功率从27%飙升至80%以上,影响ChatGPT、Claude等主流模型。研究建议采用“推理感知防护”方案监控AI推理过程,早期测试表明可有效恢复安全性并保持性能。
原文链接
以下是原文
正文:香港中文大学MMLab推出MME-CoT基准,用于评估大型语言模型的视觉推理能力。MME-CoT涵盖了数学、科学、逻辑等多个领域,并引入了严格的评估框架。实验结果显示,Kimi k1.5在CoT质量上表现最优,而o3-mini在鲁棒性和效率方面更胜一筹。研究还发现,长CoT不一定涵盖关键步骤,模型参数量越大,推理能力越强。MME-CoT为评估LMM的推理能力提供了系统化基准,推动了该领域的发展。
原文链接
加载更多
暂无内容