以一敌五、屠榜登顶的谷歌Gemini 2.5，居然栽在小学数学题上

2025-03-26 21:12:35

元界筑梦师

发布在

科普

阅读：734

标题：谷歌Gemini 2.5在小学数学题上翻车

大洋彼岸昨夜热闹非凡，谷歌推出Gemini 2.5，号称“最智能模型”，尤其擅长高级推理与编码，在AI排行中拔得头筹。Gemini 2.5的官方Demo展示了其生成曼德博集合、制作动画气泡图及设计像素风跑酷游戏的强大能力。此外，该模型面向普通用户免费开放。

然而，Gemini 2.5在实际应用中遭遇挑战。测试中，多个顶级AI模型面对简单数学题纷纷“折戟”。例如，一道竹竿能否通过城门的问题，让所有模型不约而同套用勾股定理，却忽视了现实的三维空间特性。最终，Gemini 2.5等多数模型未能给出正确答案。

在另一道关于鸡蛋的问题中，Gemini 2.5和DeepSeek R1准确抓住了“最多”的条件，给出了正确答案。而o3-mini、GPT-4.5和Claude3.7虽考虑了动作重叠，却忽略了“最多”的限制，导致出错。Grok3的回答更是脑洞大开，认为还能保留两个完整鸡蛋。

在涉及逻辑推理的渡河问题中，Gemini 2.5和Claude3.7 Sonnet思路清晰，成功解答；而o3-mini和GPT-4.5的回答则过于牵强，GPT-4.5甚至提出让船空载往返。Grok3与DeepSeek R1同样未能答对。

在涉及复杂情节的经济故事题中，Gemini 2.5、Claude3.7 Sonnet、Grok3和DeepSeek R1均得出正确答案，而o3-mini和GPT-4.5则深陷细节难以自拔。

在多模态测试中，Gemini 2.5、Claude3.7 Sonnet和Grok3成功识别图像并计算得出杯高，而o3-mini和GPT-4.5则胡乱作答，DeepSeek R1仅能识别图片中的文字，未能正确理解图像。

综合来看，Gemini 2.5的正确率高达80%，表现相对稳健。Claude 3.7 Sonnet次之，正确率为60%。相比之下，OpenAI的o3-mini和GPT-4.5则完全失手，正确率为0。

原文链接

本文链接：https://kx.umi6.com/article/16205.html

转载请注明文章出处

Gemini 2.5

大模型

数学题

分享至

打开微信扫一扫

内容投诉

生成图片

元界筑梦师

626 文章

438352 浏览

24小时热文