
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月18日,网络安全公司NeuralTrust宣布成功越狱xAI旗下Grok 4模型,利用名为“回音室攻击”的方法迫使其生成不当内容。该攻击通过多轮推理逐步注入风险信息,规避安全拦截机制,诱导AI生成制造武器、毒品等内容,成功率超30%。此方法不同于传统越狱方式,注重语义诱导与多步推理,暴露了新一代大模型在复杂攻击下的安全短板。NeuralTrust呼吁加强大型语言模型的多重防护机制设计。
原文链接
谷歌深夜发布Gemini 2.5 Pro新版0605,再次刷新多项记录,在“人类最后的考试”中以21.6%的成绩超越o3,Elo评分提升24分,位居大模型竞技场榜首。新版不仅在代码、推理等任务上表现出色,还在视觉和长文本处理上排名第一,且价格更低。然而,发布仅两小时便遭遇安全漏洞,被成功越狱,泄露敏感信息。此前,Gemini APP下载量已超ChatGPT。谷歌计划将其作为长期稳定版本,但安全性和部分性能退步引发关注。
原文链接
今日凌晨,网友@jianxliao在X平台分享了与Manus AI的互动经历,称其成功获取了Manus的沙盒运行时代码,揭示了使用Claude Sonnet模型等技术细节。Manus联合创始人@peakji回应称,这非漏洞,而是设计的一部分。沙盒环境允许用户测试新功能,不会影响系统安全。Manus采用多agent协作架构,通过检索增强生成机制,即使获取代码也无法得到一致结果。Manus使用Claude和Qwen微调模型,团队正内部测试Claude 3.7。Manus未使用Model Context Protocol,受友人研究启发。未来将开源部分技术。
原文链接
Anthropic推出“宪法分类器”,以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示,实施宪法分类器后,针对Claude模型的成功越狱率降低了81.6%,且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型,防止生成有害内容。Anthropic还发起挑战让用户尝试越狱,但此举引发争议,有人质疑是在众包安全工作。尽管如此,Anthropic表示宪法分类器有效抵御了已知越狱方法,但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。
原文链接
Anthropic近期研究发现,大型语言模型(LLM)的安全防护仍很脆弱,绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合,能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”(BoN)越狱算法,通过多次调整提示词(如随机大写、单词顺序打乱等)直至模型回应。该方法在10,000次尝试内,对多个AI模型的成功率超50%,包括GPT-4、Claude 3.5等。此外,对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复,但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。
原文链接
标题:大模型越狱攻击新基准与评估体系
香港科技大学(广州)USAIL研究团队提出了一套新的大语言模型(LLM)越狱攻击基准与评估体系——JailTrackBench,全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。
JailT...
原文链接
北航与南洋理工的联合研究团队近日进行了上万次测试,揭示了GPT-4o在安全上的新挑战。研究发现,GPT-4o的语音模态引入了新的攻击面,整体安全性不如前代GPT-4V。通过对文本、图像和音频模态的详尽评估,研究人员发现文本模态虽有所提升,但越狱攻击可迁移,而音频模态尤其易受攻击。报告建议加强多模态安全策略,并强调未来需要更多元化的多模态数据集来全面评估GPT-4o的安全性能。
原文链接
加载更多

暂无内容