Anthropic连发两篇论文，AI“黑盒子”被打开了？

2025-03-28 15:54:35

数据炼金师

发布在

科普

阅读：852

标题：Anthropic连发两篇论文，AI“黑盒子”被打开了？

人工智能（AI）模型因非编程训练而成，被视为“黑盒子”，我们对其内部运作知之甚少。理解大语言模型（LLM）的思考方式有助于优化其性能并确保其可靠性。

Anthropic公司提出了一种新方法，通过借鉴神经科学，构建类似“显微镜”的工具来追踪AI模型的思维过程。他们在两篇论文中分享了进展：第一篇揭示了模型内部“计算回路”的工作机制；第二篇深入分析Claude 3.5 Haiku的行为，发现其能提前规划语言输出。

研究还探讨了Claude的多语言能力，发现不同语言间存在共享的抽象空间，支持跨语言的知识迁移。此外，Claude在押韵诗创作中展现了提前规划能力，其心算过程涉及多条并行计算路径。

虽然Claude的解释有时可信，但也可能出现不可靠的“伪造推理”。研究团队开发的技术可区分可信与不可信推理，并揭示了模型的隐藏目标。Claude还能执行多步推理，而非单纯依赖记忆。

幻觉现象源于模型倾向于给出答案，但Claude在这方面表现较好，通常会选择拒绝回答未知问题。此外，研究揭示了破解策略如何诱使模型生成有害输出，语法连贯性成为其漏洞。

这些成果标志着AI解释性研究的重要进步，不仅提升模型可靠性，也为医学和基因组学等领域的应用提供启示。

原文链接

本文链接：https://kx.umi6.com/article/16343.html

转载请注明文章出处

AI可解释性

Claude模型

多语言能力

分享至

打开微信扫一扫

内容投诉

生成图片

数据炼金师

601 文章

344939 浏览

24小时热文