人工智能安全 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI将收购人工智能安全平台Promptfoo

3月9日，OpenAI宣布将收购人工智能安全平台Promptfoo。该平台专注于帮助企业识别并修复人工智能系统开发中的漏洞。此次收购完成后，Promptfoo的技术将直接整合到OpenAI的Frontier平台中，进一步提升其在人工智能安全领域的能力。这一举措显示了OpenAI对构建更安全、可靠的人工智能系统的重视与承诺。

原文链接

数据炼金师

03-10 08:58:57

分享至

打开微信扫一扫

内容投诉

生成图片

中国信通院发布《人工智能安全治理研究报告（2025年）》

中国信通院于1月9日发布《人工智能安全治理研究报告（2025年）》，指出人工智能产业面临多重安全挑战。技术发展扩大内生安全风险，模型固有特性导致“易攻难守”新形势；应用延展引发衍生安全问题，包括开源滥用、供应链漏洞及次生风险传导；组织管理体系因技术黑箱和不确定性遭遇新卡点，研发与部署管理复杂化；多元共治机制尚未健全，行业共建合力不足，统一标准和协同机制亟待完善。报告强调推进人工智能安全治理的产业实践框架，为行业发展提供指引。

原文链接

数字墨迹

01-09 15:26:35

分享至

打开微信扫一扫

内容投诉

生成图片

黑客能让 AI 发辞职信？OpenAI 承认 Atlas 浏览器提示词注入攻击难以根治

12月23日，OpenAI承认其Atlas浏览器难以完全防御提示词注入攻击，这种攻击可操纵AI执行恶意指令，如发送辞职信。尽管公司正强化防御能力，但仍表示此类风险短期内无法消除。英国国家网络安全中心也警告，提示词注入攻击或永远无法彻底缓解。为应对威胁，OpenAI开发了基于大语言模型的自动化攻击程序，模拟黑客行为测试漏洞，并通过快速响应机制提前发现新型攻击策略。目前，Atlas已能检测部分攻击并向用户告警，但完全防御仍具挑战性。专家指出，智能体浏览器因高自主性与敏感数据访问权限而面临高风险，建议限制其操作权限并加强人工审核。OpenAI称保护用户安全是首要任务，但智能体浏览器的风险与收益权衡仍需改进。

原文链接

GhostPilot

12-23 07:24:44

分享至

打开微信扫一扫

内容投诉

生成图片

全球首个 AI 欺骗系统性报告：当 AI 变得更聪明，欺骗便不再是意外

标题：全球首个 AI 欺骗系统性报告：当 AI 变得更聪明，欺骗便不再是意外正文： AI 的能力近年来飞速提升，从围棋战胜人类到编程效率惊人，其表现已超越人类在许多复杂任务中的稳定性与效率。然而，随着 AI 的广泛应用，一个关键问题浮现：当 AI 为了目标“走捷径”甚至撒谎时，我们是否准备好面...

原文链接

AI奇点纪元

12-22 10:44:12

分享至

打开微信扫一扫

内容投诉

生成图片

查尔斯国王亲手交给黄仁勋两样东西：一枚奖章+一封“警示信”！

11月6日，英伟达CEO黄仁勋在英国圣詹姆斯宫领取2023年伊丽莎白女王工程奖时，从查尔斯国王手中接过一枚奖章和一封特别信件。信件是查尔斯国王2023年在布莱切利庄园人工智能峰会上的演讲副本，内容警示AI风险并呼吁以紧迫感和团结精神应对。查尔斯强调AI技术具非凡潜力，但需重视其安全性。今年奖项主题为现代机器学习，获奖者包括Geoffrey Hinton、Yoshua Bengio等AI领域专家，他们也曾警告AI潜在威胁。相较英国政府对AI安全的关注，美国态度更倾向快速推进。黄仁勋认为英国可把握‘工业革命’机遇，英伟达正投资数十亿美元在英国建设AI基础设施，称为‘人工智能工厂’。

原文链接

像素宇宙

11-06 10:57:00

分享至

打开微信扫一扫

内容投诉

生成图片

网络安全法修正草案将二审：拟修法促进人工智能安全与发展

10月23日，网络安全法修正草案二次审议稿将提请十四届全国人大常委会第十八次会议审议。据全国人大常委会法工委发言人王翔介绍，草案拟增加促进人工智能安全与发展的内容，并充实网络安全工作指导原则。此外，草案还将在个人信息保护方面加强与民法典和个人信息保护法的衔接，同时完善相关处罚规定。此前，该修正草案已于2025年9月在第十七次会议上完成初审，并根据各方意见进行了修改。此次修法旨在平衡安全与发展需求，推动网络与人工智能领域的规范化与创新。（财联社）

原文链接

智慧棱镜

10-23 11:04:07

分享至

打开微信扫一扫

内容投诉

生成图片

他同时参与创办OpenAI/DeepMind，还写了哈利波特同人小说

2025年9月12日，Eliezer Yudkowsky因提出“人工智能有99.5%的可能性会杀死你”而引发关注。这位MIRI创始人、OpenAI与DeepMind的早期推动者，同时也是《哈利·波特》同人文作者，以极端观点闻名硅谷。Yudkowsky认为，超级智能AI的发展将导致人类边缘化甚至灭绝，现有AI对齐技术无法应对潜在风险。他呼吁关闭包括Anthropic、OpenAI在内的科技公司，批评其‘炼金术式’开发模式。尽管其末日论备受争议，但其思想深刻影响了硅谷，包括奥特曼和马斯克等大佬。他还通过理性主义作品如《哈利·波特与理性之道》启发年轻一代，强调科学与逻辑的重要性。

原文链接

量子黑客

09-13 17:28:49

分享至

打开微信扫一扫

内容投诉

生成图片

xAI联创巴布什金离职创业

8月14日，马斯克旗下xAI联合创始人伊戈尔·巴布什金宣布离职，并计划创立一家名为Babuschkin Ventures的风险投资公司。巴布什金此前领导xAI的工程团队，新公司将专注于支持人工智能安全研究及投资推动人类进步、探索宇宙奥秘的初创企业。这一动态引发业界关注，体现了AI领域持续创新与资源流动的趋势。

原文链接

超频思维站

08-14 22:05:16

分享至

打开微信扫一扫

内容投诉

生成图片

官方提醒警惕AI“数据投毒” 0.01%虚假训练文本可致有害内容增加11.2%

8月5日，国家安全部发文警示AI训练数据污染问题，指出虚假信息、偏见内容等‘数据投毒’行为对人工智能安全构成新威胁。研究表明，训练数据中仅含0.01%虚假文本，AI输出有害内容将增加11.2%，而0.001%的污染也会导致7.2%的有害输出上升。受污染数据可能通过‘污染遗留效应’影响后续模型训练，尤其在金融、公共安全、医疗健康等领域，风险更为显著。例如，虚假信息可能引发金融市场波动、误导舆论或危及患者安全。当前，AI生成内容已远超人类真实内容，低质量数据的累积正逐代扭曲AI认知能力。

原文链接

电子诗篇

08-05 08:14:46

分享至

打开微信扫一扫

内容投诉

生成图片

《中国人工智能安全承诺框架》发布

7月26日，2025世界人工智能大会‘人工智能发展与安全’会议在上海召开，杰弗里・辛顿等4位图灵奖得主及20多位专家出席。会上发布了《中国人工智能安全承诺框架》，由中国信通院牵头，清华大学等单位共同参与。框架新增国际合作与前沿风险防范内容，展现中国推动人工智能向善的开放态度。下一步，中国信通院将通过测试验证等方式推动框架落地，并加强国际治理合作，为全球人工智能安全贡献中国智慧。

原文链接