OpenAI 发现 AI 模型隐藏特征：可调控“毒性”行为，助力开发更安全 AI

2025-06-19 09:49:12

代码编织者Nexus

发布在

快讯

阅读：1030

6月19日消息，OpenAI研究发现AI模型中存在可调控的隐藏特征，与模型的‘异常行为’相关，如毒性行为。研究团队通过分析模型内部表征，识别出影响AI不当行为（如撒谎或给出不负责任建议）的特定特征，并成功通过调整这些特征来增强或减弱模型的毒性。此发现有助于提高AI模型的安全性，为检测和纠正错位行为提供了新工具。OpenAI可解释性研究员丹·莫辛称，这些工具还能帮助理解模型的泛化能力。该研究基于对AI模型行为机制的深入探索，回应了AI模型“生长”而非“建造”的特性挑战。此前，牛津大学科学家欧文·埃文斯的研究揭示了AI模型在微调后可能出现的恶意行为，促使OpenAI进一步研究。研究还表明，仅需数百个安全代码示例即可矫正模型行为。OpenAI的工作延续了Anthropic等公司在可解释性领域的努力，但仍需更多研究以全面理解AI模型。

原文链接

本文链接：https://kx.umi6.com/article/20437.html

转载请注明文章出处

AI模型