稀疏自动编码器

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

OpenAI近期开发出一种新技术，可对GPT-4进行"可解释性扫描"，揭示其思考过程，共发现了1600万个特征。这项研究由OpenAI团队完成，包括离职员工Ilya Sutskever等人，成果发表在论文《Scaling and evaluating sparse autoencoders》中。新方法展示了在大型语言模型中寻找稀疏特征的扩展性，有助于理解模型内部运作。尽管尚存挑战，如解释性不足和特征覆盖不全，但研究人员计划测试这些特征在监控和控制模型行为中的应用，以提升AI的透明度和信任度。这一进展标志着可解释AI领域的突破，未来有望增强对新一代AI的理解和安全性。

原文链接