1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型智障检测案例:Strawberry中的'r'数不清

大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳,引发广泛讨论。GPT-4错误且自信,Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题,但在新模型发布后,再次成为关注焦点。

有人尝试使用"一步一步地想"大法,即Few-Shot CoT,以及附加人类操作示例,但ChatGPT仍难以学会正确计数'r'。为教导大模型,全球网友开发了各种提示词技巧,包括使用《死亡笔记》中的高智商角色"L"可能使用的方法。ChatGPT提出的方法较为朴素,通过分别写出每个字母并逐一计数。

Claude玩家通过长达3682个token的提示词,复现了DeepMind的Self-Discover论文中的方法,分为两大阶段:首先针对特定任务让AI自我发现推理步骤,然后执行。这套方法下,Claude给出的答案相当复杂。

尽管如此,仍有AI能直接答对问题,如谷歌Gemini,有三分之二的概率正确。在国内测试中,字节豆包、智谱清言的ChatGLM、腾讯元宝、文心一言4.0收费版及APP版本均能给出正确答案,其中文心一言APP版本在同一种方法下偶尔会出现错误。

对于大模型来说,无论是数字问题还是字母问题,本质上都是token问题。单个字符对模型意义有限,不同AI处理方式不同。使用特殊字符提问,可以将每个字符对应的token分开。最终,使用Python语言的字符串count函数是解决问题的最简单方法。专家建议,应让AI了解自己的能力边界,并主动调用工具解决问题。

原文链接
本文链接:https://kx.umi6.com/article/3962.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
消息称 Meta 超级智能实验室已招募 44 人:一半来自中国,40% 曾在 OpenAI 任职
2025-07-20 17:06:49
重庆:支持开展“人工智能+消费”行动 打造一批“机器人+”应用场景
2025-07-18 20:45:15
OpenAI“截胡”IMO金牌,奥特曼为GPT-5献上“核弹级”预热
2025-07-20 15:09:31
24小时热文
更多
扫一扫体验小程序