6月19日消息,OpenAI研究发现AI模型中存在可调控的隐藏特征,与模型的‘异常行为’相关,如毒性行为。研究团队通过分析模型内部表征,识别出影响AI不当行为(如撒谎或给出不负责任建议)的特定特征,并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性,为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称,这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索,回应了AI模型“生长”而非“建造”的特性挑战。此前,牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为,促使OpenAI进一步研究。研究还表明,仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力,但仍需更多研究以全面理解AI模型。
原文链接
本文链接:https://kx.umi6.com/article/20437.html
转载请注明文章出处
相关推荐
换一换
OpenAI据悉完成了新AI模型的初步开发
2026-03-25 04:57:32
OpenAI收购了一家脱口秀公司
2026-04-03 18:13:08
Sora之父“跑路”背后的五大真相是什么?
2026-04-30 17:39:21
严防死守!美国AI三巨头封杀中国模型蒸馏
2026-04-07 18:11:07
OpenAI大神教你如何榨干Codex
2026-05-23 18:54:39
Sora负责人离职
2026-04-18 07:48:11
OpenAI首席财务官:公司或将筹集更多资金 未来可能考虑通过公开市场融资
2026-05-15 16:58:46
OpenAI与AWS达成协议 以竞标美国政府合同
2026-03-17 22:15:04
AI初创公司Sereact获1.1亿美元融资 旨在提升机器人适应性
2026-04-28 00:44:44
死敌爆料是狠!OpenAI内部信阴阳Claude营收注水80亿,然后泄露了…
2026-04-15 11:54:00
刚被媒体曝黑料 豪宅又被人爆弹 OpenAI CEO回应:气得要命
2026-04-11 14:03:36
OpenAI,危机四伏
2026-04-27 10:03:03
全球算力告急!OpenAI豪掷1450亿疯狂囤算力
2026-04-17 18:16:48
758 文章
716513 浏览
24小时热文
更多
-
2026-06-08 21:46:02 -
2026-06-08 19:42:13 -
2026-06-08 19:40:56