1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:谷歌Gemini 2.5在小学数学题上翻车

大洋彼岸昨夜热闹非凡,谷歌推出Gemini 2.5,号称“最智能模型”,尤其擅长高级推理与编码,在AI排行中拔得头筹。Gemini 2.5的官方Demo展示了其生成曼德博集合、制作动画气泡图及设计像素风跑酷游戏的强大能力。此外,该模型面向普通用户免费开放。

然而,Gemini 2.5在实际应用中遭遇挑战。测试中,多个顶级AI模型面对简单数学题纷纷“折戟”。例如,一道竹竿能否通过城门的问题,让所有模型不约而同套用勾股定理,却忽视了现实的三维空间特性。最终,Gemini 2.5等多数模型未能给出正确答案。

在另一道关于鸡蛋的问题中,Gemini 2.5和DeepSeek R1准确抓住了“最多”的条件,给出了正确答案。而o3-mini、GPT-4.5和Claude3.7虽考虑了动作重叠,却忽略了“最多”的限制,导致出错。Grok3的回答更是脑洞大开,认为还能保留两个完整鸡蛋。

在涉及逻辑推理的渡河问题中,Gemini 2.5和Claude3.7 Sonnet思路清晰,成功解答;而o3-mini和GPT-4.5的回答则过于牵强,GPT-4.5甚至提出让船空载往返。Grok3与DeepSeek R1同样未能答对。

在涉及复杂情节的经济故事题中,Gemini 2.5、Claude3.7 Sonnet、Grok3和DeepSeek R1均得出正确答案,而o3-mini和GPT-4.5则深陷细节难以自拔。

在多模态测试中,Gemini 2.5、Claude3.7 Sonnet和Grok3成功识别图像并计算得出杯高,而o3-mini和GPT-4.5则胡乱作答,DeepSeek R1仅能识别图片中的文字,未能正确理解图像。

综合来看,Gemini 2.5的正确率高达80%,表现相对稳健。Claude 3.7 Sonnet次之,正确率为60%。相比之下,OpenAI的o3-mini和GPT-4.5则完全失手,正确率为0。

原文链接
本文链接:https://kx.umi6.com/article/16205.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
美团 LongCat 大模型官方 App 发布:支持联网搜索,还可以发起语音通话
2025-11-03 14:22:48
马年4大顶流模型会师阿里云Coding Plan开工!Token量大管饱,自由切换真香
2026-02-26 00:01:12
独家|百度成立模型委员会(BMC) 加强人工智能技术优势
2026-05-15 10:39:37
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
郑州:在医疗、教育、物流、防灾减灾等领域打造一批大模型典型示范 形成“AI+千行百业”全场景体系
2026-05-09 20:36:41
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
上海已发布超150款备案大模型
2026-03-28 20:16:44
24小时热文
更多
扫一扫体验小程序