大模型智障检测案例:Strawberry中的'r'数不清
大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳,引发广泛讨论。GPT-4错误且自信,Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题,但在新模型发布后,再次成为关注焦点。
有人尝试使用"一步一步地想"大法,即Few-Shot CoT,以及附加人类操作示例,但ChatGPT仍难以学会正确计数'r'。为教导大模型,全球网友开发了各种提示词技巧,包括使用《死亡笔记》中的高智商角色"L"可能使用的方法。ChatGPT提出的方法较为朴素,通过分别写出每个字母并逐一计数。
Claude玩家通过长达3682个token的提示词,复现了DeepMind的Self-Discover论文中的方法,分为两大阶段:首先针对特定任务让AI自我发现推理步骤,然后执行。这套方法下,Claude给出的答案相当复杂。
尽管如此,仍有AI能直接答对问题,如谷歌Gemini,有三分之二的概率正确。在国内测试中,字节豆包、智谱清言的ChatGLM、腾讯元宝、文心一言4.0收费版及APP版本均能给出正确答案,其中文心一言APP版本在同一种方法下偶尔会出现错误。
对于大模型来说,无论是数字问题还是字母问题,本质上都是token问题。单个字符对模型意义有限,不同AI处理方式不同。使用特殊字符提问,可以将每个字符对应的token分开。最终,使用Python语言的字符串count函数是解决问题的最简单方法。专家建议,应让AI了解自己的能力边界,并主动调用工具解决问题。
原文链接
本文链接:https://kx.umi6.com/article/3962.html
转载请注明文章出处
相关推荐
换一换
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
2024-07-25 18:57:37
大模型智障检测+1:Strawberry有几个r纷纷数不清
2024-07-25 14:44:51
马斯克与OpenAI的恩怨情仇
2026-01-23 22:18:50
黄仁勋谈AI泡沫:泡沫产生是因为投资规模空前庞大 巨额投资是为了构建AI基础设施
2026-01-22 16:01:49
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
高盛:市场对人工智能的关注依然强烈
2026-01-23 19:11:03
黄仁勋证实英伟达已取代苹果 成为台积电最大客户
2026-01-22 16:02:53
事关AI聊天机器人和自动驾驶!马斯克和奥尔特曼隔空互喷
2026-01-21 20:25:45
纳德拉达沃斯警示:没电,AI全是空谈
2026-01-22 04:36:47
融捷股份等成立新公司 含多项AI业务
2026-01-22 15:00:25
美国AI财大气粗 国产AI学不了:Kimi仅用了1%算力就超越主流闭源
2026-01-22 22:14:12
全球首个AI美女演员诞生!星爵演员破大防怒喷
2026-01-21 23:30:59
与他们谈论AI后,感觉大家都是温水里的青蛙
2026-01-21 20:23:27
686 文章
467895 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41