1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型智障检测案例:Strawberry中的'r'数不清

大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳,引发广泛讨论。GPT-4错误且自信,Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题,但在新模型发布后,再次成为关注焦点。

有人尝试使用"一步一步地想"大法,即Few-Shot CoT,以及附加人类操作示例,但ChatGPT仍难以学会正确计数'r'。为教导大模型,全球网友开发了各种提示词技巧,包括使用《死亡笔记》中的高智商角色"L"可能使用的方法。ChatGPT提出的方法较为朴素,通过分别写出每个字母并逐一计数。

Claude玩家通过长达3682个token的提示词,复现了DeepMind的Self-Discover论文中的方法,分为两大阶段:首先针对特定任务让AI自我发现推理步骤,然后执行。这套方法下,Claude给出的答案相当复杂。

尽管如此,仍有AI能直接答对问题,如谷歌Gemini,有三分之二的概率正确。在国内测试中,字节豆包、智谱清言的ChatGLM、腾讯元宝、文心一言4.0收费版及APP版本均能给出正确答案,其中文心一言APP版本在同一种方法下偶尔会出现错误。

对于大模型来说,无论是数字问题还是字母问题,本质上都是token问题。单个字符对模型意义有限,不同AI处理方式不同。使用特殊字符提问,可以将每个字符对应的token分开。最终,使用Python语言的字符串count函数是解决问题的最简单方法。专家建议,应让AI了解自己的能力边界,并主动调用工具解决问题。

原文链接
本文链接:https://kx.umi6.com/article/3962.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
2024-07-25 18:57:37
大模型智障检测+1:Strawberry有几个r纷纷数不清
2024-07-25 14:44:51
无惧加码还是箭难回头?消息称软银已批准对OpenAI追加225亿美元投资
2025-10-27 11:59:16
抖音集团旗下巨量引擎首次披露AI广告治理自研大模型
2025-10-26 21:29:49
法狮龙新设科技子公司 含多项AI业务
2025-10-27 12:00:23
百度联合上体发布“上体体育大模型2.0”
2025-10-26 14:12:59
沙特人工智能公司Humain与高通宣布将在沙特部署先进的人工智能基础设施
2025-10-27 22:20:44
美团视频生成模型正式发布并开源
2025-10-27 11:00:45
零一万物高管新阵容亮相,李开复加码布局ToB 2.0
2025-10-27 17:06:51
AI的尽头是电力?
2025-10-27 17:08:04
美团视频生成模型来了!一出手就是开源SOTA
2025-10-27 16:06:12
能懂孩子、懂爸妈、还懂宠物,这届AI硬件太会了
2025-10-25 15:28:07
这种眼镜我建议外卖快递小哥人手一个
2025-10-27 15:04:40
24小时热文
更多
扫一扫体验小程序