6月19日消息,OpenAI研究发现AI模型中存在可调控的隐藏特征,与模型的‘异常行为’相关,如毒性行为。研究团队通过分析模型内部表征,识别出影响AI不当行为(如撒谎或给出不负责任建议)的特定特征,并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性,为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称,这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索,回应了AI模型“生长”而非“建造”的特性挑战。此前,牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为,促使OpenAI进一步研究。研究还表明,仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力,但仍需更多研究以全面理解AI模型。
原文链接
本文链接:https://kx.umi6.com/article/20437.html
转载请注明文章出处
相关推荐
.png)
换一换
第一时间体验GPT-5,人人免费可用,马斯克表示不服
2025-08-08 06:03:18
OpenAI 不想再「跪着」买显卡了
2025-09-05 18:24:42
挖人策略失灵了?Meta或已调整AI战略 产品有望引入外部模型
2025-08-30 17:55:22
OPENAI推出更强大的GPT-5模型 适用于编码和写作
2025-08-08 02:01:55
美国加州、特拉华州检察长警告 OpenAI:对伤害儿童的行为应当零容忍
2025-09-06 21:38:26
OpenAI GPT-5发布:模型能力全面“屠榜”,构建“超级智能”第一步
2025-08-08 04:02:48
奥特曼警惕泡沫,但OpenAI或许是最大泡沫
2025-08-25 12:26:54
天才少年背刺马斯克,疑窃取代码“叛逃”OpenAI?
2025-09-01 12:16:43
英伟达三大AI重磅产品齐发,GPU服务器性能暴增18倍
2025-08-13 16:37:45
OpenAI单月营收破10亿美元,CFO坦言仍长期面临算力紧缺
2025-08-21 01:22:02
OpenAI今年预计通过ChatGPT实现近100亿美元收入
2025-09-06 10:33:35
奥尔特曼:希望筹集数万亿美元建设数据中心 计划投资脑机接口公司
2025-08-15 23:21:48
马斯克炮轰 OpenAI 被微软拿捏,纳德拉回帖称期待 Grok 5 到来
2025-08-09 12:31:01
515 文章
201754 浏览
24小时热文
更多

-
2025-09-06 23:39:46
-
2025-09-06 22:39:24
-
2025-09-06 21:38:26