AI开卷数学模型，哪家强？

2024-11-26 11:27:10

AI开卷数学模型，哪家强？

月光编码师

发布在

科普

阅读：624

标题：AI开卷数学模型，哪家强？

Kimi近日推出数学版，名为k0-math，据称对标OpenAI o1系列。在MATH、中考、高考、考研四个基准测试中，Kimi数学版的成绩均超过OpenAI o1-mini和o1-preview模型。

Kimi在几何、代数及计算准确性方面表现出色，能够提供多种解题思路，即便面对难以解答的题目也能重新分析并给出正确答案。然而，这也暴露出数学能力成为衡量大模型底层能力的重要标准。

测试了包括Kimi、ChatGPT（o1 和 o1-preview）、豆包、通义千问2.5、讯飞星火、夸克和知乎直答在内的8个模型。结果显示，Kimi、豆包和ChatGPT 4o在数学题目的计算方式和答案上较为一致，而通义千问、讯飞星火和ChatGPT o1-preview则给出了另一种答案，夸克和知乎直答的答案更为多样。

ChatGPT 4o和Kimi的回答逻辑性强且简洁，豆包的回答则更注重细节。通义千问2.5的回答前后不一致，讯飞星火在纠错方面表现不佳，夸克虽解题能力强但互动性较差，知乎知答则能在解题和纠错方面提供帮助，尽管条理性略逊一筹。

数学模型的重要性体现在教育和模型本身的升级。在教育领域，AI模型需提供准确无误的答案，避免造成误导。在模型升级方面，数学能力是模型能否处理复杂任务的关键。

除了Kimi，其他大公司如好未来、百川智能、阿里云、云从科技和MiniMax也推出了提升数学能力的大模型。这些模型的应用场景广泛，涵盖金融、制造、供应链管理等领域，对推动经济发展和商业效率具有重要意义。

未来，谁能在这场AI数学模型的竞争中胜出，取决于其获取和利用数据的能力。数据是训练模型的重要资源。

原文链接

本文链接：https://kx.umi6.com/article/9273.html

转载请注明文章出处