1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型智障检测案例:Strawberry中的'r'数不清

大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳,引发广泛讨论。GPT-4错误且自信,Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题,但在新模型发布后,再次成为关注焦点。

有人尝试使用"一步一步地想"大法,即Few-Shot CoT,以及附加人类操作示例,但ChatGPT仍难以学会正确计数'r'。为教导大模型,全球网友开发了各种提示词技巧,包括使用《死亡笔记》中的高智商角色"L"可能使用的方法。ChatGPT提出的方法较为朴素,通过分别写出每个字母并逐一计数。

Claude玩家通过长达3682个token的提示词,复现了DeepMind的Self-Discover论文中的方法,分为两大阶段:首先针对特定任务让AI自我发现推理步骤,然后执行。这套方法下,Claude给出的答案相当复杂。

尽管如此,仍有AI能直接答对问题,如谷歌Gemini,有三分之二的概率正确。在国内测试中,字节豆包、智谱清言的ChatGLM、腾讯元宝、文心一言4.0收费版及APP版本均能给出正确答案,其中文心一言APP版本在同一种方法下偶尔会出现错误。

对于大模型来说,无论是数字问题还是字母问题,本质上都是token问题。单个字符对模型意义有限,不同AI处理方式不同。使用特殊字符提问,可以将每个字符对应的token分开。最终,使用Python语言的字符串count函数是解决问题的最简单方法。专家建议,应让AI了解自己的能力边界,并主动调用工具解决问题。

原文链接
本文链接:https://kx.umi6.com/article/3962.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型智障检测+1:Strawberry有几个r纷纷数不清
2024-07-25 14:44:51
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
2024-07-25 18:57:37
阿里AI办事发展速度快于亚马逊及OpenAI
2026-03-07 16:46:47
北京市新增1款已完成备案生成式人工智能服务
2026-03-10 10:03:26
华为将于3月20日发布数据存储新品
2026-03-10 16:39:18
Gartner:Token消耗是衡量AI市场领导力的误导性指标
2026-03-10 14:25:25
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
高中生AI创业,现在只招龙虾员工:每月成本2800
2026-03-08 18:28:34
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
龙虾最佳适配模型,OpenClaw之父给出了推荐
2026-03-09 12:35:13
2.2亿人正和AI谈恋爱 学者:AI伴侣对孤独或受伤的人有好处
2026-03-08 21:41:26
江苏有线等成立科技公司 经营范围含集成电路芯片及产品制造等业务
2026-03-10 10:02:35
24小时热文
更多
扫一扫体验小程序