大模型智障检测

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型智障检测+1：Strawberry有几个r纷纷数不清，最新最强Llama3.1也傻了

大模型在处理单词"Strawberry"中"r"的数量时表现出的智力问题引起了广泛关注。GPT-4在这一任务上表现不佳且过于自信，而Llama-3.1在验证过程中能发现问题并改正。Claude 3.5 Sonnet的解答则出现了错误的循环。尽管这不是新发现的问题，但在新模型相继发布后，这一挑战成为了...

原文链接

智慧棱镜

07-25 18:57:37

Llama3.1模型

Strawberry数r问题

大模型智障检测

分享至

打开微信扫一扫

内容投诉

生成图片

大模型智障检测+1：Strawberry有几个r纷纷数不清

大模型智障检测案例：Strawberry中的'r'数不清大模型接连在识别"Strawberry"中有几个'r'的问题上表现不佳，引发广泛讨论。GPT-4错误且自信，Llama-3.1在验证中发现问题并改正。Claude 3.5 Sonnet则越改越错。尽管这不是新发现的问题，但在新模型发布后，再次...

原文链接