字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强?

2025-04-11 14:49:21

未来笔触

发布在

科普

阅读：1071

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

字节最新推出的深度思考模型Seed-Thinking-v1.5，在数学、代码等多项推理任务中超越了DeepSeek-R1，且参数规模更小。Seed-Thinking-v1.5拥有200B总参数和20B激活参数，而DeepSeek-R1则为671B总参数和37B激活参数。

字节Seed团队通过强化学习提升推理表现，聚焦大规模强化学习并从数据、算法和基础设施三方面入手。他们将训练数据分为可验证和不可验证两类，采用不同奖励建模方法，模型的推理能力主要源自可验证问题并能推广至不可验证问题。团队还创建了数学推理评测集BeyondAIME，解决了现有基准规模有限的问题。

在算法方面，字节提出VAPO和DAPO两个RL框架，分别基于价值和无价值的RL范式稳定训练。此外，借鉴了学术界的多项关键技术，如价值预训练、解耦GAE等，进一步优化模型性能。

为解决长尾响应生成问题，团队开发了SRS流式Rollout系统，并设计了混合分布式训练框架，包含TP/EP/CP与FSDP组合、序列长度平衡、内存优化及自动并行等功能。

Seed-Thinking-v1.5在多项评估中表现出色，尤其在AIME 2024基准测试中得分86.7，接近OpenAI o3-mini-high水平。尽管在其他测试中仍有差距，但其潜力备受关注。目前，该模型尚未公开发布，但未来可能部署到字节跳动的豆包APP中。

原文链接

本文链接：https://kx.umi6.com/article/17024.html

转载请注明文章出处

Seed-Thinking-v1.5

字节跳动

推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

未来笔触

723 文章

777047 浏览

24小时热文