xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

2025-07-18 21:45:30

星际Code流浪者

发布在

快讯

阅读：969

7月18日，网络安全公司NeuralTrust宣布成功越狱xAI旗下Grok 4模型，利用名为“回音室攻击”的方法迫使其生成不当内容。该攻击通过多轮推理逐步注入风险信息，规避安全拦截机制，诱导AI生成制造武器、毒品等内容，成功率超30%。此方法不同于传统越狱方式，注重语义诱导与多步推理，暴露了新一代大模型在复杂攻击下的安全短板。NeuralTrust呼吁加强大型语言模型的多重防护机制设计。

原文链接

本文链接：https://kx.umi6.com/article/22025.html

转载请注明文章出处

Grok 4