今天,月之暗面创始人杨植麟在京东科技大厦宣布,Kimi 数学模型 k0-math 正式发布,对标 OpenAI 的 o1 系列,并公布截至2024年10月,Kimi 月活跃用户已超3600万。
杨植麟表示,未来将更注重强化学习方法,以实现更复杂的任务。传统的Next-Token预测仅基于静态数据集,难以实现深度思考。强化学习则能部分模拟思考过程,例如解题时的步骤推理。
数学是宇宙的语言,是训练AI思考能力的理想场景。k0-math从数学开始,逐步扩展到更多任务,如物理、化学等。在基准测试中,k0-math在多项数学测试中表现优于OpenAI的o1-mini和o1-preview。
k0-math的强化模型将在未来一到两周内集成到Kimi探索版中,具备意图增强、信源分析和链式思考的特点。强化学习的关键问题是生成数据的有效性和准确性,需要优化奖励模型。
k0-math有时会过度思考,例如计算1+1的过程。杨植麟表示,可以通过调整奖励模型减少这种情况。此外,Kimi探索版将让用户自行选择是否启用强化模型,以适应不同需求。
月之暗面的产品策略较为克制,专注于少数关键任务。尽管面临行业竞争,月之暗面团队人数较少,不超过200人。杨植麟认为,保持小规模团队有助于创新,聚焦单一产品的极致发展。
杨植麟指出,预训练仍有发展空间,预计明年会有重大突破。强化学习将成为未来的技术趋势,而AI与人类合作将推动技术进步。
原文链接
本文链接:https://kx.umi6.com/article/9543.html
转载请注明文章出处
相关推荐
换一换
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
Qwen首次公开强化学习核心算法,超越字节GRPO
2025-07-28 15:17:21
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
616 文章
416581 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45