时隔不到一个月,DeepSeek再次震撼全球AI圈。去年12月,DeepSeek-V3凭借极低的成本,与GPT-4o和Claude Sonnet 3.5等顶级模型比肩,震惊业界。腾讯科技曾深入解读其技术背景。
这次发布的DeepSeek-R1不仅成本低,还在技术上显著提升,且为开源模型。它仅用十分之一的成本就达到GPT-o1的水平,引发业内热议,甚至有声音称“DeepSeek接班OpenAI”。
DeepSeek-R1的纯RL方法训练模型和其“顿悟”能力引起广泛关注。该模型在AIME竞赛中从15.6%提升至71.0%的准确率,展示了真正的推理能力。此外,它在Codeforces上的表现也超过96.3%的人类选手,表明其掌握普适的推理能力。
尽管DeepSeek-R1存在语言混杂等问题,但它在推理能力上表现出色。通过引入冷启动数据和多阶段训练,DeepSeek-R1不仅保持了推理能力,还能用人类易懂的方式表达思维过程。
原文链接
本文链接:https://kx.umi6.com/article/12068.html
转载请注明文章出处
相关推荐
换一换
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
2025年图灵奖:强化学习的前世今生
2025-04-01 10:19:18
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
668 文章
437056 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45