1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

今天,月之暗面创始人杨植麟在京东科技大厦宣布,Kimi 数学模型 k0-math 正式发布,对标 OpenAI 的 o1 系列,并公布截至2024年10月,Kimi 月活跃用户已超3600万。

杨植麟表示,未来将更注重强化学习方法,以实现更复杂的任务。传统的Next-Token预测仅基于静态数据集,难以实现深度思考。强化学习则能部分模拟思考过程,例如解题时的步骤推理。

数学是宇宙的语言,是训练AI思考能力的理想场景。k0-math从数学开始,逐步扩展到更多任务,如物理、化学等。在基准测试中,k0-math在多项数学测试中表现优于OpenAI的o1-mini和o1-preview。

k0-math的强化模型将在未来一到两周内集成到Kimi探索版中,具备意图增强、信源分析和链式思考的特点。强化学习的关键问题是生成数据的有效性和准确性,需要优化奖励模型。

k0-math有时会过度思考,例如计算1+1的过程。杨植麟表示,可以通过调整奖励模型减少这种情况。此外,Kimi探索版将让用户自行选择是否启用强化模型,以适应不同需求。

月之暗面的产品策略较为克制,专注于少数关键任务。尽管面临行业竞争,月之暗面团队人数较少,不超过200人。杨植麟认为,保持小规模团队有助于创新,聚焦单一产品的极致发展。

杨植麟指出,预训练仍有发展空间,预计明年会有重大突破。强化学习将成为未来的技术趋势,而AI与人类合作将推动技术进步。

原文链接
本文链接:https://kx.umi6.com/article/9543.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作
2024-12-30 15:19:55
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
又一篇“苦涩的教训”,让AI觉得人间有不值,发现无穷尽
2025-04-22 08:10:09
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
24小时热文
更多
扫一扫体验小程序