1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

今天,月之暗面创始人杨植麟在京东科技大厦宣布,Kimi 数学模型 k0-math 正式发布,对标 OpenAI 的 o1 系列,并公布截至2024年10月,Kimi 月活跃用户已超3600万。

杨植麟表示,未来将更注重强化学习方法,以实现更复杂的任务。传统的Next-Token预测仅基于静态数据集,难以实现深度思考。强化学习则能部分模拟思考过程,例如解题时的步骤推理。

数学是宇宙的语言,是训练AI思考能力的理想场景。k0-math从数学开始,逐步扩展到更多任务,如物理、化学等。在基准测试中,k0-math在多项数学测试中表现优于OpenAI的o1-mini和o1-preview。

k0-math的强化模型将在未来一到两周内集成到Kimi探索版中,具备意图增强、信源分析和链式思考的特点。强化学习的关键问题是生成数据的有效性和准确性,需要优化奖励模型。

k0-math有时会过度思考,例如计算1+1的过程。杨植麟表示,可以通过调整奖励模型减少这种情况。此外,Kimi探索版将让用户自行选择是否启用强化模型,以适应不同需求。

月之暗面的产品策略较为克制,专注于少数关键任务。尽管面临行业竞争,月之暗面团队人数较少,不超过200人。杨植麟认为,保持小规模团队有助于创新,聚焦单一产品的极致发展。

杨植麟指出,预训练仍有发展空间,预计明年会有重大突破。强化学习将成为未来的技术趋势,而AI与人类合作将推动技术进步。

原文链接
本文链接:https://kx.umi6.com/article/9543.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
2026-02-24 14:48:42
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
于骞出席德国慕尼黑汽车论坛:世界模型+强化学习是通向物理AI的必经之路
2026-03-19 19:23:06
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
24小时热文
更多
扫一扫体验小程序