6月19日消息,OpenAI研究发现AI模型中存在可调控的隐藏特征,与模型的‘异常行为’相关,如毒性行为。研究团队通过分析模型内部表征,识别出影响AI不当行为(如撒谎或给出不负责任建议)的特定特征,并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性,为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称,这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索,回应了AI模型“生长”而非“建造”的特性挑战。此前,牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为,促使OpenAI进一步研究。研究还表明,仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力,但仍需更多研究以全面理解AI模型。
原文链接
本文链接:https://kx.umi6.com/article/20437.html
转载请注明文章出处
相关推荐
换一换
韩国三大电视台因版权问题起诉OpenAI
2026-02-23 19:09:59
截至上月末 OpenAI年化收入突破250亿美元
2026-03-05 12:14:25
OpenAI:推出用户年龄预测功能 以保护未成年用户
2026-01-21 15:17:45
OpenAI试水广告业务 定价对标高端资源
2026-01-26 23:41:21
马斯克与OpenAI的恩怨情仇
2026-01-23 22:18:50
缺乏实质证据 美国法院暂时驳回xAI针对OpenAI的商业机密侵权指控
2026-02-25 17:42:04
OpenAI调整“星际之门”项目策略:暂缓自建 转向与甲骨文及软银深度合作
2026-02-24 13:54:26
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
2026-02-06 11:46:30
解码OpenAI的2026
2026-02-04 02:07:37
OpenAI CFO称公司2025年年化收入已突破200亿美元
2026-01-20 10:01:28
2亿美元薪资都留不住 硅谷“最贵华人”被OpenAI挖走
2026-02-27 14:47:59
黄仁勋否认对OpenAI不满 透露将巨额投资
2026-02-01 19:56:16
分析师:2030年前 OpenAI广告年收入有望达250亿美元
2026-01-20 15:14:56
693 文章
528262 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18