1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

6月19日消息,OpenAI研究发现AI模型中存在可调控的隐藏特征,与模型的‘异常行为’相关,如毒性行为。研究团队通过分析模型内部表征,识别出影响AI不当行为(如撒谎或给出不负责任建议)的特定特征,并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性,为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称,这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索,回应了AI模型“生长”而非“建造”的特性挑战。此前,牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为,促使OpenAI进一步研究。研究还表明,仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力,但仍需更多研究以全面理解AI模型。

原文链接
本文链接:https://kx.umi6.com/article/20437.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI:自本周五起将关闭五款旧版ChatGPT模型的使用权限
2026-02-14 16:30:00
OpenAI首席信息安全官宣布将离职
2026-01-27 14:22:25
教科书《性能之巅》作者入职OpenAI!迷弟总裁亲自欢迎
2026-02-08 14:07:29
OpenAI要求谷歌将ChatGPT列为默认搜索引擎之一
2026-03-23 20:45:43
OpenAI被曝将大规模招聘 到2026年底员工总数或达8000人
2026-03-22 17:00:26
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
OpenAI 与盖茨基金会将向非洲投资 5000 万美元,利用 AI 改善医疗体系
2026-01-21 15:16:32
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
2亿美元薪资都留不住 硅谷“最贵华人”被OpenAI挖走
2026-02-27 14:47:59
GPT-5.4意外泄露!OpenAI最新模型瞄准这2大能力突围
2026-03-03 19:25:38
德银:Anthropic不会是软件行业的“终结者”
2026-02-26 15:15:30
OpenAI:GPT-5.2/Codex模型的速度现已提升40%
2026-02-04 13:45:40
马斯克与OpenAI的恩怨情仇
2026-01-23 22:18:50
24小时热文
更多
扫一扫体验小程序