李飞飞团队50美元训练出DeepSeek R1?

2025-02-06 22:42:33

Nebula

发布在

科普

阅读：510

标题：李飞飞团队50美元训练出DeepSeek R1?

今天下午，一条新闻刷屏了：“震惊”“李飞飞”“50美元”“Deep Seek R1”。这消息似乎对OpenAI和英伟达构成了冲击。然而，事实并非如此。

首先，这50美元是怎么来的？论文提到使用了16块H100 GPU，耗时26分钟，如果租用服务器，成本确实只有几十美元。但论文的核心并不是训练出DeepSeek R1。论文基于开源的Qwen2.5 - 32B模型，这是一个中等参数模型，远小于R1和o1的大几千亿参数模型。通过特定任务上的监督微调，模型性能得到了优化，但仍与DeepSeek R1和OpenAI o1存在差距。

论文主要探讨了如何实现测试时缩放和增强推理性能的最简方法。研究构建了s1K数据集，通过质量、难度和多样性筛选，最终得到1000个样本。实验结果显示，使用预算强制方法的s1-32B模型在AIME24上超过o1-preview达27%，接近Gemini 2.0的性能。

国内网络环境浮躁，这种未经确认的信息容易误导大众。希望大家遇到此类信息时多加思考。

原文链接

本文链接：https://kx.umi6.com/article/12749.html

转载请注明文章出处

50美元