标题:这道数学题,Kimi和豆包谁答对了?
12月16日,我发现Kimi数学版的logo眼镜框变大了,并更名为“Kimi视觉思考版”。这让我回想起上周为Kimi数学版写的测评文章。
Kimi数学版于11月26日上线,官方宣称其能力对标Chatgpt的o1-mini模型。我决定用AI给AI出题,让Kimi解决数学难题。首先,我让豆包出了一道未被完全证明的哥德巴赫猜想数学题,结果Kimi未能给出正确答案。随后,我们换了一道常规高中数学题,Kimi用了53秒完成解答,其中第二小问耗时33秒。
Kimi在解答时使用了类似人类的语言,如“换个角度思考”,并认为自己的解答“无懈可击”。但经审查,Kimi的解题思路存在一些问题,尤其是在定点选取上的错误,导致后续推理失效。
豆包在解答同一题目时也出现了相似的问题,尤其是在最后一步的整理过程中忽略了k的存在,得出错误结论。最终,Kimi和豆包的解题过程都存在一定缺陷。
数学作为解开宇宙万物的重要工具,AI的进步在这一领域尤为明显。Kimi数学版采用了强化学习和思维链技术,提升了模型的逻辑推理能力。尽管如此,Kimi在某些方面仍需改进,特别是在处理复杂问题时的准确性。
本周发布的Kimi视觉思考版在解答时显得更“人性化”,甚至会自我反思,但在推演过程中出现了中断,推测是由于篇幅限制所致。这次测评显示,Kimi在数学能力上有进步,但仍需优化。
看到这里,你会给Kimi点个赞吗?欢迎分享你的观点。
原文链接
本文链接:https://kx.umi6.com/article/10347.html
转载请注明文章出处
相关推荐
换一换
Kimi 数学版上线:基于月之暗面 k0-math 模型,号称能力对标 OpenAI o1
2024-11-26 20:35:54
斑马智能接入支付宝AI付车载版 打通AI座舱“支付即服务”
2026-04-24 17:25:23
独家|黑湖科技完成近10亿元D轮融资
2026-04-23 08:59:12
占比大幅提升!谷歌:公司内部75%的新代码已由AI生成
2026-04-23 08:57:02
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
谷歌:目前谷歌所有新代码中 75%由人工智能生成
2026-04-22 20:28:17
上海:一季度全市三大先导产业制造领域产值同比增长16.1%
2026-04-22 17:32:28
美团内测万亿级新一代大模型,全程基于国产算力集群训练
2026-04-24 12:12:33
国家知识产权局:人工智能、芯片、脑机接口纳入“快保护”通道
2026-04-24 12:10:22
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
昇腾超节点系列产品全面支持DeepSeek V4新模型
2026-04-24 13:15:05
阶跃与腾讯云合作打造新一代 AI 座舱解决方案
2026-04-23 19:26:30
776 文章
601546 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38