6月23日,月之暗面(Moonshot AI)推出首款自主强化学习Agent产品Kimi-Researcher,并开启小范围灰度测试。该产品基于端到端自主强化学习技术开发,在HLE测试中表现突出,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,与Gemini-Pro的Deep Research Agent持平。Kimi-Researcher具备高度自主性,无需复杂提示词或预设流程,可独立完成任务规划与执行,同时有效减少幻觉问题,确保研究严谨性。其核心优势在于动态环境下的自主决策能力,包括信息权衡、任务节点切换和中间信息筛选。月之暗面计划未来逐步开源该产品的基础预训练模型及强化学习优化版本,推动相关领域发展。
原文链接
本文链接:https://kx.umi6.com/article/20626.html
转载请注明文章出处
相关推荐
换一换
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
2025-11-20 10:17:17
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
月之暗面否认Kimi K2 Thinking模型训练成本为460万美元
2025-11-11 16:19:11
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
726 文章
482934 浏览
24小时热文
更多
-
2026-02-13 05:00:36 -
2026-02-13 03:58:33 -
2026-02-13 02:57:22