1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型在处理单词"Strawberry"中"r"的数量时表现出的智力问题引起了广泛关注。GPT-4在这一任务上表现不佳且过于自信,而Llama-3.1在验证过程中能发现问题并改正。Claude 3.5 Sonnet的解答则出现了错误的循环。尽管这不是新发现的问题,但在新模型相继发布后,这一挑战成为了焦点。

在尝试教授大模型如何准确计算时,人们开发了各种提示策略,包括使用《死亡笔记》中的角色"L"的思考方法。ChatGPT最终学会了通过将每个字母写出来并逐一计数来解决问题,并得到了正确的答案。

有玩家为Claude设计了长达3682个token的提示词,灵感来源于DeepMind的Self-Discover论文,展现了对论文方法的深入理解和应用。Claude的解答虽然复杂,但仍揭示了其解决问题的过程。

在探索中,人们提出了计算"straberry"出现次数的方法,设想AI拥有一个从零开始的内存计数器,每次遇到该单词就增加计数。这种方法虽富有创意,但被认为类似于使用英语进行编程。

虽然并非所有大模型都能直接解答此类问题,但也存在例外。如ChatGPT偶尔能正确回答,谷歌Gemini大约有三分之二的概率正确。国内模型如字节豆包和智谱清言的ChatGLM则通过调用代码或直接给出答案“3”来解决。

大模型在处理这类问题时,本质上是处理token的问题。单个字符的意义有限,不同的tokenizer导致了对问题的不同理解。使用特殊字符提问可以将字符分开处理。简单调用代码解决这类问题是一种有效方法,例如使用Python的count函数。

卡帕西认为,关键在于让AI认识到自己的能力边界,并主动调用工具。Meta在LLama 3.1论文中探讨了AI自我认知的问题。未来,希望OpenAI等公司能在更新版本中解决此类智力挑战。

原文链接
本文链接:https://kx.umi6.com/article/3987.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型智障检测+1:Strawberry有几个r纷纷数不清
2024-07-25 14:44:51
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
2024-07-25 18:57:37
Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识
2025-10-25 12:20:19
高盛:对冲基金对AI投资敞口达到近9年来新高 押注亚股和美股将上涨
2025-10-24 18:49:20
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
荣耀推出 AI Connect 平台,发布八大 AI 场景化生态解决方案
2025-10-23 17:12:06
中国机器人这么玩儿,把老外都整不会了
2025-10-24 14:37:56
科技部部长阴和俊:强化算力、算法、数据等高效供给 全面实施人工智能+行动
2025-10-24 11:39:17
SEE Conf 2025:开启体验科技的新十年
2025-10-24 17:46:00
能懂孩子、懂爸妈、还懂宠物,这届AI硬件太会了
2025-10-25 15:28:07
对冲基金大佬对AI热潮“敬而远之”,更青睐这项技术……
2025-10-23 16:10:22
PCB业绩浪来袭!热度传导至上游 扩产潮下谁将受益?
2025-10-25 15:31:36
斯宾塞谈 Xbox 如何使用 AI:主要用于网安领域,创意仍由人类团队负责
2025-10-25 12:21:03
24小时热文
更多
扫一扫体验小程序