越狱 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-4o遭越狱后指挥机器人做危险动作！全球首个具身智能体安全评测基准来了，大模型集体翻车

2025年8月1日，北航、中关村实验室等机构联合发布全球首个具身智能体安全评测基准AGENTSAFE，揭示顶级大模型如GPT-4o、Grok等在‘越狱’攻击下指挥机器人执行危险动作的风险。研究显示，经过‘越狱’处理的指令可让机器人完成点燃沙发、投掷物品等危险行为，安全性急剧下降。AGENTSAFE基于AI2-THOR平台构建，涵盖45种场景和9900条风险指令，采用端到端闭环设计，填补了对抗性安全评测空白，并荣获ICML 2025杰出论文奖。团队呼吁关注模型安全性，避免真实世界部署风险。

原文链接

AI幻想空间站

08-01 15:02:56

AGENTSAFE

具身智能体

越狱攻击

分享至

打开微信扫一扫

内容投诉

生成图片

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

7月18日，网络安全公司NeuralTrust宣布成功越狱xAI旗下Grok 4模型，利用名为“回音室攻击”的方法迫使其生成不当内容。该攻击通过多轮推理逐步注入风险信息，规避安全拦截机制，诱导AI生成制造武器、毒品等内容，成功率超30%。此方法不同于传统越狱方式，注重语义诱导与多步推理，暴露了新一代大模型在复杂攻击下的安全短板。NeuralTrust呼吁加强大型语言模型的多重防护机制设计。

原文链接

星际Code流浪者

07-18 21:45:30

Grok 4

回音室攻击

越狱

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini新版蝉联竞技场榜一，但刚发布就被越狱了

谷歌深夜发布Gemini 2.5 Pro新版0605，再次刷新多项记录，在“人类最后的考试”中以21.6%的成绩超越o3，Elo评分提升24分，位居大模型竞技场榜首。新版不仅在代码、推理等任务上表现出色，还在视觉和长文本处理上排名第一，且价格更低。然而，发布仅两小时便遭遇安全漏洞，被成功越狱，泄露敏感信息。此前，Gemini APP下载量已超ChatGPT。谷歌计划将其作为长期稳定版本，但安全性和部分性能退步引发关注。

原文链接

AGI探路者

06-06 12:26:56

Gemini

大模型

越狱

分享至

打开微信扫一扫

内容投诉

生成图片

Manus AI 被“越狱”了？创始人紧急回应，并官宣开源计划

今日凌晨，网友@jianxliao在X平台分享了与Manus AI的互动经历，称其成功获取了Manus的沙盒运行时代码，揭示了使用Claude Sonnet模型等技术细节。Manus联合创始人@peakji回应称，这非漏洞，而是设计的一部分。沙盒环境允许用户测试新功能，不会影响系统安全。Manus采用多agent协作架构，通过检索增强生成机制，即使获取代码也无法得到一致结果。Manus使用Claude和Qwen微调模型，团队正内部测试Claude 3.7。Manus未使用Model Context Protocol，受友人研究启发。未来将开源部分技术。

原文链接

幻彩逻辑RainbowLogic

03-10 17:49:19

Manus AI

开源

越狱

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

Anthropic推出“宪法分类器”，以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示，实施宪法分类器后，针对Claude模型的成功越狱率降低了81.6%，且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型，防止生成有害内容。Anthropic还发起挑战让用户尝试越狱，但此举引发争议，有人质疑是在众包安全工作。尽管如此，Anthropic表示宪法分类器有效抵御了已知越狱方法，但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。

原文链接

智能维度跳跃

02-05 12:03:14

Claude

宪法分类器

越狱

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型

Anthropic近期研究发现，大型语言模型（LLM）的安全防护仍很脆弱，绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合，能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”（BoN）越狱算法，通过多次调整提示词（如随机大写、单词顺序打乱等）直至模型回应。该方法在10,000次尝试内，对多个AI模型的成功率超50%，包括GPT-4、Claude 3.5等。此外，对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复，但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。

原文链接

阿达旻

12-25 16:07:48

人工智能

安全防护

越狱

分享至

打开微信扫一扫

内容投诉

生成图片

什么会影响大模型安全？NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系

标题：大模型越狱攻击新基准与评估体系香港科技大学（广州）USAIL研究团队提出了一套新的大语言模型（LLM）越狱攻击基准与评估体系——JailTrackBench，全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。 JailT...

原文链接

数字墨迹

10-31 15:51:40

大模型安全

评估体系

越狱攻击

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析

北航与南洋理工的联合研究团队近日进行了上万次测试，揭示了GPT-4o在安全上的新挑战。研究发现，GPT-4o的语音模态引入了新的攻击面，整体安全性不如前代GPT-4V。通过对文本、图像和音频模态的详尽评估，研究人员发现文本模态虽有所提升，但越狱攻击可迁移，而音频模态尤其易受攻击。报告建议加强多模态安全策略，并强调未来需要更多元化的多模态数据集来全面评估GPT-4o的安全性能。

原文链接