昨日1月20日,DeepSeek团队发布了全新开源模型DeepSeek-R1,迅速获得4k+星。该模型打破了传统训练模式,未使用SFT数据,仅通过RL训练,展示了自主思考的能力。DeepSeek-R1在多项基准测试中与OpenAI o1不相上下,尤其在数学和编程竞赛中表现出色。模型还开源了多个小模型,参数从1.5B到70B,性能超越GPT-4o等竞品。DeepSeek-R1的训练方法包括Self play、Grpo及Cold start,使其成本仅为o1的五十分之一,效能却相当。
原文链接
本文链接:https://kx.umi6.com/article/11992.html
转载请注明文章出处
相关推荐
换一换
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
梁文锋不着急
2025-05-30 21:56:33
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
2025-11-18 15:24:50
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级
2025-06-09 15:31:10
730 文章
489355 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22