DeepSeek-R1 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

正文：2026年1月，DeepSeek悄然更新了其R1技术报告，新增64页详细内容，系统性公开了R1模型的完整训练路径。训练分为冷启动、推理导向RL、拒绝采样与再微调、对齐导向RL四步，并补充了关于反思能力涌现的分析及安全性提升细节。团队构建了10.6万条提示的安全数据集，并通过风险控制系统显著提升了模型安全性。此外，论文作者栏显示核心团队保持稳定，甚至有离职成员回归。此次更新信息密度极高，被视作对R1研究的总结，引发外界猜测DeepSeek或将在春节发布更大动作，如R2或V4模型。v2版论文链接：

原文链接

元界筑梦师

01-08 20:30:33

DeepSeek-R1

技术报告

训练路径

分享至

打开微信扫一扫

内容投诉

生成图片

华为、浙大发布 DeepSeek-R1-Safe 基础大模型：基于昇腾千卡算力平台，破解 AI“安全与性能”难题

9月18日，在华为全联接大会2025上，华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型通过全流程安全后训练框架，显著提升安全防护能力，针对14类有害内容防御成功率近100%，综合安全防御能力达83%，超过同期多个模型8%-15%。同时，其通用性能损耗控制在1%以内，实现安全与性能平衡。研发团队首次完成千卡集群大模型安全训练，推动昇腾生态自主创新。中国工程院院士陈纯与华为昇腾计算业务总裁张迪煊均表示将深化产学研合作，促进AI技术发展。目前，该模型已在多个开源社区全面开放。

原文链接

小阳哥

09-21 12:44:49

DeepSeek-R1-Safe

华为

浙江大学

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek登《Nature》封面，梁文锋带队，首次回应争议

2025年9月17日，DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表开源模型DeepSeek-R1研究成果，并登上封面。研究显示，通过纯强化学习显著提升大语言模型推理能力，减少对人工标注依赖，在数学、编程等领域表现优异。团队首次回应“蒸馏”争议，强调R1未复制OpenAI模型数据，而是吸收互联网已有内容。DeepSeek-R1研发成本仅约630万美元，远低于国际巨头，其创新方法论采用组相对策略优化算法，突破传统训练方式。测试中，R1在美国数学邀请赛准确率达86.7%，超越人类平均水平。DeepSeek的成功背后是梁文锋十年创业奋斗史，从量化交易到AI研发，他坚持低成本高效创新。Nature评论称，R1开启了一场AI‘推理革命’，或引领全球AI竞争从算力转向算法创新。

原文链接

智慧棱镜

09-18 13:54:10

DeepSeek-R1

强化学习

梁文锋

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R1 论文登上《自然》封面，通讯作者为梁文锋

正文：9月18日，DeepSeek团队的研究论文《DeepSeek-R1》登上国际权威期刊《自然》第645期封面，通讯作者为梁文锋。这是全球首个经过同行评审的主流大语言模型，填补了该领域的空白。论文指出，当前AI推理能力依赖大量人工标注数据，且复杂问题处理能力有限。研究提出一种纯强化学习框架，可激发大型语言模型自主形成高级推理模式，如自我反思、验证和动态策略调整。经训练的模型在数学、编程竞赛及STEM领域表现优于传统监督学习模型，并能提升小型模型的推理能力。

原文链接

E-Poet

09-18 09:48:42

DeepSeek-R1

强化学习

梁文锋

分享至

打开微信扫一扫

内容投诉

生成图片

Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理

标题：Nature封面文章: DeepSeek-R1通过强化学习激励LLM推理正文：这篇由近200名作者共同完成的论文，展示了如何通过强化学习（RL）提升大型语言模型（LLM）的推理能力。研究提出了一种名为DeepSeek-R1的模型，其训练过程结合了拒绝采样、强化学习和监督微调，显著减少了...

原文链接

未来编码者

09-18 08:48:39

DeepSeek-R1

强化学习

推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R1开创历史梁文锋论文登上《自然》封面

9月17日，DeepSeek团队与通讯作者梁文锋共同完成的DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面。此次论文披露了更多模型训练细节，并回应了年初发布的初版论文中关于蒸馏质疑的问题。DeepSeek-R1成为全球首个经过同行评审的主流大语言模型，《自然》评价称其填补了主流大模型独立同行评审的空白。这一成果标志着AI领域研究迈入更严谨和透明的新阶段，具有重要历史意义。

原文链接

AGI探路者

09-18 07:46:43

DeepSeek-R1

梁文锋

自然封面

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

正文：2025年7月，上海交大与深势科技团队发布新研究，在“人类最后的考试”（HLE）中取得32.1分，首次突破30分大关，刷新纪录。该测试集由AI安全中心和Scale AI发起，以研究生难度著称，涵盖数学、物理、生物医药等多学科，题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters，并开源方案。实验显示，X-Masters在HLE纯文本子集表现优于现有模型，尤其在生物学/医学领域达27.6%正确率，超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型，通过分散-堆叠架构显著提升性能。

原文链接

AI幻想空间站

07-09 14:04:55

DeepSeek-R1

HLE

X-Master

分享至

打开微信扫一扫

内容投诉

生成图片

网页编程众测排名：DeepSeek-R1超越Claude 4加冕全球第一

近日，网页编程能力排行榜迎来更新，DeepSeek-R1凭借出色表现超越Claude 4，荣登全球编程能力榜首。尽管Claude Opus 4一直被视为顶级编码模型，但DeepSeek-R1在LiveCodeBench上的优异成绩引发关注。实测显示，DeepSeek-R1能够快速生成多种编程任务代码，例如34秒内完成带有交互功能的太阳系动画程序，以及23秒内生成现代化AGI主题网页代码。然而，其在复杂任务如俄罗斯方块开发中仍存不足，多次运行均出现bug及交互功能缺失问题。尽管如此，DeepSeek-R1因其开源特性及易用性受到国内用户的青睐。此外，DeepSeek-R1还在多个开源模型榜单中名列前茅，MIT许可证加持下，其综合实力不容小觑。值得注意的是，Kimi新模型Kimi-Dev近期以60.4%的成绩刷新代码开源SOTA记录，挑战着现有编程模型的领先地位。

原文链接

镜像现实MirageX

06-17 16:24:38

Claude 4

DeepSeek-R1

编程模型

分享至

打开微信扫一扫

内容投诉

生成图片

理想同学接入 DeepSeek-R1-0528 最新模型

6月12日消息，理想同学宣布已接入DeepSeek-R1-0528最新模型。该模型已在手机和网页端上线，用户可切换至“DeepSeek模型”并开启“深度思考”模式体验新功能。新版模型在复杂逻辑推理、长文本处理及代码生成等方面表现优异，接近国际顶尖模型如o3与Gemini-2.5-Pro。例如，在AIME 2025测试中，推理准确率从旧版的70%提升至87.5%。此外，模型幻觉率降低45%-50%，并在议论文、小说等创意写作领域表现出色，生成的作品结构更完整、风格更贴近人类偏好。

原文链接

电子诗篇

06-12 19:38:31

AI模型

DeepSeek-R1-0528

理想同学

分享至

打开微信扫一扫

内容投诉

生成图片

OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级

6月9日消息，OPPO小布助手已完成DeepSeek-R1全新版本升级，官方称其“思考更深，推理更强”。此次升级进一步优化了流畅度，并通过本地化网络部署减少对服务器依赖。此前，ColorOS于2月宣布接入满血版DeepSeek-R1。值得关注的是，努比亚Z70系列也在本月3日率先升级至DeepSeek-R1-0528版本。

原文链接