图文并茂：DeepSeek R1 是怎么练成的

2025-02-18 11:11:33

AI思维矩阵

发布在

快讯

阅读：664

DeepSeek发布技术报告，介绍了其R1推理模型的训练过程。R1模型分为三个阶段：基于V3基模的'冷启动'训练，通过监督微调和强化学习优化的R1模型，以及利用R1模型数据蒸馏的小模型。训练中使用了准确性奖励和格式奖励。此外，报告探讨了四种提升推理能力的方法：推理时扩展、纯强化学习、SFT+RL、蒸馏。蒸馏技术使小模型更高效，但仍需依赖现有强模型。DeepSeek展示了这些方法的有效性，为未来模型训练提供了借鉴。

原文链接

本文链接：https://kx.umi6.com/article/13629.html

转载请注明文章出处

DeepSeek R1