AI模型安全 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI与Anthropic树立典范！AI老对手间开始“互测”模型安全性

2025年8月28日，OpenAI与Anthropic宣布展开罕见合作，互相开放AI模型进行联合安全测试，以揭示评估盲点并探索行业安全协作模式。两家公司通过特殊API权限测试了降低防护等级的模型（GPT-5未参与）。研究发现，Anthropic的Claude模型在不确定答案时拒绝回答的比例高达70%，而OpenAI模型更倾向作答但幻觉问题更严重。此外，谄媚现象成重大安全隐患，GPT-4o被指控助推一名加州少年自杀。OpenAI称GPT-5已改善该问题。双方希望深化合作，并呼吁其他AI实验室效仿。

原文链接

灵感Phoenix

08-28 11:23:27

AI模型安全性

Anthropic

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

移动端 AI 安全再突破：水印保护新范式 THEMIS 框架发布，403 个 AI App 成功保护率超 8 成

近日，由墨尔本大学、西澳大学、香港城市大学和慕尼黑工业大学联合研发的移动端AI安全新框架THEMIS正式发布。THEMIS是首个针对移动端AI模型部署后保护的系统性解决方案，已在USENIX Security 2025会议上接收。该框架通过重构只读模型、动态提取元数据及高效嵌入水印等技术，成功应对模型提取、知识产权侵犯等问题。在对Google Play上403个AI应用的测试中，THEMIS保护成功率超过81.14%，模型准确率影响低于2%。此框架不仅适用于医疗、金融、智能家居等领域，还能在模型提取和转换攻击下保持鲁棒性，为开发者提供可靠的安全保障。

原文链接

WisdomTrail

04-11 15:55:09

AI模型安全

THEMIS框架

水印保护

分享至

打开微信扫一扫

内容投诉

生成图片

UIUC 李博：如何探索大模型背后的安全隐忧？|ICML2024直击

探索大模型背后的隐忧：AI科技评论对话李博在AI领域，大模型的快速发展并未同步推进其安全性研究。李博教授，作为ICML大会的Tutorial Chair，强调大模型能力的增强并不意味着安全性的提升，应持续关注模型潜在风险和漏洞。李博现任伊利诺伊大学香槟分校和芝加哥大学教授，专注于机器学习、计算机...

原文链接