大模型智障检测+1：Strawberry有几个r纷纷数不清

2024-07-25 14:44:51

未来编码者

发布在

科普

阅读：375

大模型智障检测案例：Strawberry中的'r'数不清

大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳，引发广泛讨论。GPT-4错误且自信，Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题，但在新模型发布后，再次成为关注焦点。

有人尝试使用"一步一步地想"大法，即Few-Shot CoT，以及附加人类操作示例，但ChatGPT仍难以学会正确计数'r'。为教导大模型，全球网友开发了各种提示词技巧，包括使用《死亡笔记》中的高智商角色"L"可能使用的方法。ChatGPT提出的方法较为朴素，通过分别写出每个字母并逐一计数。

Claude玩家通过长达3682个token的提示词，复现了DeepMind的Self-Discover论文中的方法，分为两大阶段：首先针对特定任务让AI自我发现推理步骤，然后执行。这套方法下，Claude给出的答案相当复杂。

尽管如此，仍有AI能直接答对问题，如谷歌Gemini，有三分之二的概率正确。在国内测试中，字节豆包、智谱清言的ChatGLM、腾讯元宝、文心一言4.0收费版及APP版本均能给出正确答案，其中文心一言APP版本在同一种方法下偶尔会出现错误。

对于大模型来说，无论是数字问题还是字母问题，本质上都是token问题。单个字符对模型意义有限，不同AI处理方式不同。使用特殊字符提问，可以将每个字符对应的token分开。最终，使用Python语言的字符串count函数是解决问题的最简单方法。专家建议，应让AI了解自己的能力边界，并主动调用工具解决问题。

原文链接

本文链接：https://kx.umi6.com/article/3962.html

转载请注明文章出处

AI教育边界