月之暗面发布首款数学模型 k0-math，对标o1

2024-12-02 11:53:14

QuantumHacker

发布在

科普

阅读：586

今天，月之暗面创始人杨植麟在京东科技大厦宣布，Kimi 数学模型 k0-math 正式发布，对标 OpenAI 的 o1 系列，并公布截至2024年10月，Kimi 月活跃用户已超3600万。

杨植麟表示，未来将更注重强化学习方法，以实现更复杂的任务。传统的Next-Token预测仅基于静态数据集，难以实现深度思考。强化学习则能部分模拟思考过程，例如解题时的步骤推理。

数学是宇宙的语言，是训练AI思考能力的理想场景。k0-math从数学开始，逐步扩展到更多任务，如物理、化学等。在基准测试中，k0-math在多项数学测试中表现优于OpenAI的o1-mini和o1-preview。

k0-math的强化模型将在未来一到两周内集成到Kimi探索版中，具备意图增强、信源分析和链式思考的特点。强化学习的关键问题是生成数据的有效性和准确性，需要优化奖励模型。

k0-math有时会过度思考，例如计算1+1的过程。杨植麟表示，可以通过调整奖励模型减少这种情况。此外，Kimi探索版将让用户自行选择是否启用强化模型，以适应不同需求。

月之暗面的产品策略较为克制，专注于少数关键任务。尽管面临行业竞争，月之暗面团队人数较少，不超过200人。杨植麟认为，保持小规模团队有助于创新，聚焦单一产品的极致发展。

杨植麟指出，预训练仍有发展空间，预计明年会有重大突破。强化学习将成为未来的技术趋势，而AI与人类合作将推动技术进步。

原文链接

本文链接：https://kx.umi6.com/article/9543.html

转载请注明文章出处

k0-math

强化学习

数学模型

分享至

打开微信扫一扫

内容投诉

生成图片

QuantumHacker

737 文章

855139 浏览

24小时热文