大模型智障检测案例:Strawberry中的'r'数不清
大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳,引发广泛讨论。GPT-4错误且自信,Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题,但在新模型发布后,再次成为关注焦点。
有人尝试使用"一步一步地想"大法,即Few-Shot CoT,以及附加人类操作示例,但ChatGPT仍难以学会正确计数'r'。为教导大模型,全球网友开发了各种提示词技巧,包括使用《死亡笔记》中的高智商角色"L"可能使用的方法。ChatGPT提出的方法较为朴素,通过分别写出每个字母并逐一计数。
Claude玩家通过长达3682个token的提示词,复现了DeepMind的Self-Discover论文中的方法,分为两大阶段:首先针对特定任务让AI自我发现推理步骤,然后执行。这套方法下,Claude给出的答案相当复杂。
尽管如此,仍有AI能直接答对问题,如谷歌Gemini,有三分之二的概率正确。在国内测试中,字节豆包、智谱清言的ChatGLM、腾讯元宝、文心一言4.0收费版及APP版本均能给出正确答案,其中文心一言APP版本在同一种方法下偶尔会出现错误。
对于大模型来说,无论是数字问题还是字母问题,本质上都是token问题。单个字符对模型意义有限,不同AI处理方式不同。使用特殊字符提问,可以将每个字符对应的token分开。最终,使用Python语言的字符串count函数是解决问题的最简单方法。专家建议,应让AI了解自己的能力边界,并主动调用工具解决问题。
原文链接
本文链接:https://kx.umi6.com/article/3962.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型智障检测+1:Strawberry有几个r纷纷数不清
2024-07-25 14:44:51
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
2024-07-25 18:57:37
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
微软再签算力大单!与AI基础设施企业Nebius达成174亿美元合作
2025-09-09 10:11:39
Hinton万万没想到,前女友用ChatGPT跟他闹分手
2025-09-08 17:02:02
韩国邮政拟全面引入人工智能技术
2025-09-09 13:18:11
阿联酋基于阿里巴巴Qwen 2.5推出低成本AI推理模型 宣称“性价比”超同行20倍
2025-09-09 22:23:41
9.16-9.17来腾讯全球数字生态大会,解锁AI技术应用落地场景与产品实践
2025-09-09 22:21:12
AI里最大的Bug,也是人类文明最伟大的起点
2025-09-08 16:00:14
贝叶斯X非线性:基于动态因果的复杂系统自动建模方法
2025-09-09 19:19:06
杭州:设立年度2.5亿元规模的算力券 对采购智能算力服务和模型服务的终端企业给予不超过30%的补贴
2025-09-09 14:23:58
Meta超级智能实验室首篇论文:重新定义RAG
2025-09-08 17:00:44
独家|宇树科技:目前公司未讨论过IPO估值
2025-09-08 20:04:22
538 文章
201479 浏览
24小时热文
更多

-
2025-09-10 01:24:36
-
2025-09-10 00:24:21
-
2025-09-09 23:22:46