从归因图到AI 的“生物学”：探索Claude3.5 Haiku 的内部机制“中”

2025-06-01 15:22:01

WisdomTrail

发布在

科普

阅读：1953

标题：从归因图到AI的“生物学”：探索Claude3.5 Haiku的内部机制

正文：

在人工智能领域，大语言模型（LLMs，如Claude 3.5 Haiku）已展现强大语言处理能力，但其内部机制仍似“黑箱”。Anthropic团队通过“归因图”新方法揭示模型从输入到输出的计算步骤，部分解析模型内部特征及其相互作用，帮助理解其在多步推理、诗歌创作、医学诊断等任务中的机制。

归因图类似神经科学中的连接组学，通过追踪计算步骤生成假设，并用扰动实验验证。例如，模型在两位数加法中分解计算为多条路径，利用“查找表”特征实现个位加法的快速响应。模型在面对加法问题时，会先估算总和，再整合路径结果，这种策略不同于传统人工计算方式。

在医学诊断中，模型根据症状识别可能的诊断，并通过后续提问验证。例如，面对孕妇右上腹痛，模型优先建议检查视觉障碍或蛋白尿，提示子痫前期的可能性。归因图显示模型激活子痫前期相关特征，验证其诊断依据。但实际应用中，仍需医生结合更多细节信息判断诊断结果。

模型有时会产生“幻觉”，即生成与事实不符的信息。例如，当询问未知人物的运动时，模型可能随意猜测。通过微调，模型学会在扮演助手角色时抑制这种行为。此外，模型具备拒绝机制，拒绝有害请求，如混合漂白剂与氨水的广告请求。通过归因图分析，发现拒绝机制涉及“有害请求”特征群，但仍有越狱提示词能绕过此机制。

综上，归因图揭示了Claude 3.5 Haiku等大语言模型的复杂行为结构，为提升AI安全性与可控性提供了新方向。

原文链接

本文链接：https://kx.umi6.com/article/19575.html

转载请注明文章出处

医学诊断

大语言模型

归因图

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

732 文章

774728 浏览

24小时热文