1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

6月19日消息,OpenAI研究发现AI模型中存在可调控的隐藏特征,与模型的‘异常行为’相关,如毒性行为。研究团队通过分析模型内部表征,识别出影响AI不当行为(如撒谎或给出不负责任建议)的特定特征,并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性,为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称,这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索,回应了AI模型“生长”而非“建造”的特性挑战。此前,牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为,促使OpenAI进一步研究。研究还表明,仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力,但仍需更多研究以全面理解AI模型。

原文链接
本文链接:https://kx.umi6.com/article/20437.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI原研究副总裁回归
2026-01-15 10:32:13
苹果用上了安卓AI,马斯克为啥急得跳脚?
2026-01-15 11:35:02
阿里巴巴旗下AI模型有效助力胰腺癌早筛
2026-01-06 17:20:22
年薪 55.5 万美元 + 股权,OpenAI 急招“安全防范负责人”
2025-12-28 08:15:58
OpenAI和谷歌通过免费赠品争夺印度用户和训练数据
2025-12-17 20:03:37
亚马逊拟百亿投资OpenAI:看似各取所需 实则有人吃暗亏
2025-12-19 22:13:55
OpenAI,65倍,8300亿美元
2025-12-22 10:40:37
消息称 OpenAI 考虑为 ChatGPT 内部版投放广告,收益存疑
2026-01-07 20:37:09
消息称 OpenAI 大力研发音频 AI 模型,加紧备战首款“无屏幕”硬件设备
2026-01-02 00:44:25
微软CEO称该公司计划于周五发布新的智能体AI模型
2025-12-11 13:53:32
美国《连线》杂志:再见,GPT5;你好,千问!
2025-12-29 15:27:00
GPT-5.2-Codex 正式亮相
2025-12-19 04:26:13
OpenAI 与晶圆级 AI 芯片企业 Cerebras 达成合作,三年部署 750MW 推理系统
2026-01-15 10:26:49
24小时热文
更多
扫一扫体验小程序