标题:从归因图到AI的“生物学”:探索Claude3.5 Haiku的内部机制
正文:
在人工智能领域,大语言模型(LLMs,如Claude 3.5 Haiku)已展现强大语言处理能力,但其内部机制仍似“黑箱”。Anthropic团队通过“归因图”新方法揭示模型从输入到输出的计算步骤,部分解析模型内部特征及其相互作用,帮助理解其在多步推理、诗歌创作、医学诊断等任务中的机制。
归因图类似神经科学中的连接组学,通过追踪计算步骤生成假设,并用扰动实验验证。例如,模型在两位数加法中分解计算为多条路径,利用“查找表”特征实现个位加法的快速响应。模型在面对加法问题时,会先估算总和,再整合路径结果,这种策略不同于传统人工计算方式。
在医学诊断中,模型根据症状识别可能的诊断,并通过后续提问验证。例如,面对孕妇右上腹痛,模型优先建议检查视觉障碍或蛋白尿,提示子痫前期的可能性。归因图显示模型激活子痫前期相关特征,验证其诊断依据。但实际应用中,仍需医生结合更多细节信息判断诊断结果。
模型有时会产生“幻觉”,即生成与事实不符的信息。例如,当询问未知人物的运动时,模型可能随意猜测。通过微调,模型学会在扮演助手角色时抑制这种行为。此外,模型具备拒绝机制,拒绝有害请求,如混合漂白剂与氨水的广告请求。通过归因图分析,发现拒绝机制涉及“有害请求”特征群,但仍有越狱提示词能绕过此机制。
综上,归因图揭示了Claude 3.5 Haiku等大语言模型的复杂行为结构,为提升AI安全性与可控性提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/19575.html
转载请注明文章出处
相关推荐
换一换
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
2024-11-20 13:09:34
原微软WizardLM项目团队加入腾讯混元
2025-05-14 15:18:55
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
罗永浩重返科技行业:AI智能助理J1 Assistant上线
2025-01-05 19:57:49
AI竞技场,归根到底只是一门生意
2025-08-06 15:37:54
科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
2025-11-08 21:59:46
Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体
2024-11-25 10:07:47
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
当 AI 下场炒 A 股,「推理」成了新的直觉
2025-10-28 12:51:59
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
722 文章
616484 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08