昨日1月20日,DeepSeek团队发布了全新开源模型DeepSeek-R1,迅速获得4k+星。该模型打破了传统训练模式,未使用SFT数据,仅通过RL训练,展示了自主思考的能力。DeepSeek-R1在多项基准测试中与OpenAI o1不相上下,尤其在数学和编程竞赛中表现出色。模型还开源了多个小模型,参数从1.5B到70B,性能超越GPT-4o等竞品。DeepSeek-R1的训练方法包括Self play、Grpo及Cold start,使其成本仅为o1的五十分之一,效能却相当。
原文链接
本文链接:https://kx.umi6.com/article/11992.html
转载请注明文章出处
相关推荐
.png)
换一换
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
DeepSeek-R1 成 Hugging Face 最受欢迎大模型,力压近 150 万个“对手”
2025-02-24 09:14:26
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
梁文锋不着急
2025-05-30 21:56:33
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
DeepSeek-R1联网搜索测评公布 腾讯元宝位列第一
2025-03-11 18:45:49
文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
2025-05-14 17:20:57
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
企业微信接入DeepSeek
2025-02-21 13:52:13
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
539 文章
172606 浏览
24小时热文
更多

-
2025-09-09 00:06:37
-
2025-09-09 00:05:10
-
2025-09-08 23:04:48