6月19日消息,OpenAI研究发现AI模型中存在可调控的隐藏特征,与模型的‘异常行为’相关,如毒性行为。研究团队通过分析模型内部表征,识别出影响AI不当行为(如撒谎或给出不负责任建议)的特定特征,并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性,为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称,这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索,回应了AI模型“生长”而非“建造”的特性挑战。此前,牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为,促使OpenAI进一步研究。研究还表明,仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力,但仍需更多研究以全面理解AI模型。
原文链接
本文链接:https://kx.umi6.com/article/20437.html
转载请注明文章出处
相关推荐
.png)
换一换
研究称 GPT-5“有害回答”比 GPT-4o 更多,不回避“自杀”相关话题
2025-10-17 12:15:56
大厂AI各走「开源」路
2025-10-17 09:09:57
谷歌开源抗癌 AI 模型:模拟 4000 种药物后锁定潜在抗癌药
2025-10-16 14:56:03
OpenAI变现能力受质疑!ChatGPT欧洲付费用户增长已停滞
2025-10-17 18:27:50
OpenAI也缺卡!僧多粥少,自曝内部抢卡抢到发疯
2025-10-21 13:25:09
已故名人遭 Sora 2“复活”引争议,OpenAI 称允许生成历史人物
2025-10-09 09:10:22
OpenAI收紧Sora监管 承诺加强防范AI深伪内容
2025-10-21 07:19:29
120 亿年收入撬动 1 万亿美元订单:OpenAI 烧钱搞 AI 基建,奥尔特曼称短期内不优先考虑盈利
2025-10-09 09:09:35
OpenAI收购由前苹果员工创立的人工智能初创公司
2025-10-24 01:20:07
美国法官终止争议性命令:OpenAI 无需无限期保存 ChatGPT 聊天记录
2025-10-12 10:41:09
飙涨23.7%,芯片巨头终于等来“泼天机遇”
2025-10-09 09:13:48
曝 OpenAI 正向多家企业推介使用 ChatGPT 登录:可将 API 成本转嫁用户,无形扩大影响力
2025-10-18 22:38:28
OpenAI再造爆款?AI视频社交应用Sora问鼎苹果热门App榜单
2025-10-04 00:49:30
569 文章
299928 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07