标题:这道数学题,Kimi和豆包谁答对了?
12月16日,我发现Kimi数学版的logo眼镜框变大了,并更名为“Kimi视觉思考版”。这让我回想起上周为Kimi数学版写的测评文章。
Kimi数学版于11月26日上线,官方宣称其能力对标Chatgpt的o1-mini模型。我决定用AI给AI出题,让Kimi解决数学难题。首先,我让豆包出了一道未被完全证明的哥德巴赫猜想数学题,结果Kimi未能给出正确答案。随后,我们换了一道常规高中数学题,Kimi用了53秒完成解答,其中第二小问耗时33秒。
Kimi在解答时使用了类似人类的语言,如“换个角度思考”,并认为自己的解答“无懈可击”。但经审查,Kimi的解题思路存在一些问题,尤其是在定点选取上的错误,导致后续推理失效。
豆包在解答同一题目时也出现了相似的问题,尤其是在最后一步的整理过程中忽略了k的存在,得出错误结论。最终,Kimi和豆包的解题过程都存在一定缺陷。
数学作为解开宇宙万物的重要工具,AI的进步在这一领域尤为明显。Kimi数学版采用了强化学习和思维链技术,提升了模型的逻辑推理能力。尽管如此,Kimi在某些方面仍需改进,特别是在处理复杂问题时的准确性。
本周发布的Kimi视觉思考版在解答时显得更“人性化”,甚至会自我反思,但在推演过程中出现了中断,推测是由于篇幅限制所致。这次测评显示,Kimi在数学能力上有进步,但仍需优化。
看到这里,你会给Kimi点个赞吗?欢迎分享你的观点。
原文链接
本文链接:https://kx.umi6.com/article/10347.html
转载请注明文章出处
相关推荐
.png)
换一换
这道数学题,Kimi和豆包谁答对了?
2024-12-17 22:13:35
Kimi 数学版上线:基于月之暗面 k0-math 模型,号称能力对标 OpenAI o1
2024-11-26 20:35:54
Databricks融资10亿美元 估值超过1000亿美元
2025-09-08 22:04:30
中信证券:首个“AI+”行业政策落地 电力数智化发展前景可期
2025-09-09 09:10:22
国内首家支持全形态 AI 编程工具:腾讯发布自研 AI CLI 工具 CodeBuddy Code
2025-09-09 16:18:15
老程序员爱用 AI 写代码:调查显示超三成资深工程师一半代码靠 AI 生成
2025-09-08 19:02:09
B站开源自研 IndexTTS-2.0:情感可控、时长可控的零样本语音合成 AI 模型
2025-09-09 16:18:36
OpenAI 为动画长片提供工具和资源支持,力图证明 AI“拍电影”比好莱坞更快更便宜
2025-09-08 17:03:11
上海:鼓励有条件的区对租用算力的数字广告企业按不超过实际投入的30%给予支持 单个主体年度最高2000万元
2025-09-08 11:59:47
碳基生命如何面对硅基挑战?
2025-09-08 14:59:20
两部门要求推进“人工智能 +”能源高质量发展,虚拟电厂概念相关企业直线涨停
2025-09-08 10:55:15
傅利叶首款陪伴机器人 GR-3 开启预售:身高 165cm,全身柔肤软包
2025-09-08 10:54:56
通用人工智能就在身边,为何我们感知却不明显?
2025-09-08 09:58:00
534 文章
180868 浏览
24小时热文
更多

-
2025-09-09 17:19:03
-
2025-09-09 17:18:09
-
2025-09-09 17:17:56