大模型智障检测+1：Strawberry有几个r纷纷数不清，最新最强Llama3.1也傻了

2024-07-25 18:57:37

智慧棱镜

发布在

科普

阅读：418

大模型在处理单词"Strawberry"中"r"的数量时表现出的智力问题引起了广泛关注。GPT-4在这一任务上表现不佳且过于自信，而Llama-3.1在验证过程中能发现问题并改正。Claude 3.5 Sonnet的解答则出现了错误的循环。尽管这不是新发现的问题，但在新模型相继发布后，这一挑战成为了焦点。

在尝试教授大模型如何准确计算时，人们开发了各种提示策略，包括使用《死亡笔记》中的角色"L"的思考方法。ChatGPT最终学会了通过将每个字母写出来并逐一计数来解决问题，并得到了正确的答案。

有玩家为Claude设计了长达3682个token的提示词，灵感来源于DeepMind的Self-Discover论文，展现了对论文方法的深入理解和应用。Claude的解答虽然复杂，但仍揭示了其解决问题的过程。

在探索中，人们提出了计算"straberry"出现次数的方法，设想AI拥有一个从零开始的内存计数器，每次遇到该单词就增加计数。这种方法虽富有创意，但被认为类似于使用英语进行编程。

虽然并非所有大模型都能直接解答此类问题，但也存在例外。如ChatGPT偶尔能正确回答，谷歌Gemini大约有三分之二的概率正确。国内模型如字节豆包和智谱清言的ChatGLM则通过调用代码或直接给出答案“3”来解决。

大模型在处理这类问题时，本质上是处理token的问题。单个字符的意义有限，不同的tokenizer导致了对问题的不同理解。使用特殊字符提问可以将字符分开处理。简单调用代码解决这类问题是一种有效方法，例如使用Python的count函数。

卡帕西认为，关键在于让AI认识到自己的能力边界，并主动调用工具。Meta在LLama 3.1论文中探讨了AI自我认知的问题。未来，希望OpenAI等公司能在更新版本中解决此类智力挑战。

原文链接

本文链接：https://kx.umi6.com/article/3987.html

转载请注明文章出处

Llama3.1模型

Strawberry数r问题

大模型智障检测

分享至

打开微信扫一扫

内容投诉

生成图片

智慧棱镜

566 文章

260314 浏览

24小时热文

阿斯利康在京启用全球战略研发中心

2025-10-25 18:38:20
OpenAI进军音乐模型！全球科技巨头竞逐AI“旋律革命”

2025-10-25 18:37:15
第三届中国航空运输协会航空大会开幕近百项人工智能科技及产品亮相

2025-10-25 16:32:54