字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
字节最新推出的深度思考模型Seed-Thinking-v1.5,在数学、代码等多项推理任务中超越了DeepSeek-R1,且参数规模更小。Seed-Thinking-v1.5拥有200B总参数和20B激活参数,而DeepSeek-R1则为671B总参数和37B激活参数。
字节Seed团队通过强化学习提升推理表现,聚焦大规模强化学习并从数据、算法和基础设施三方面入手。他们将训练数据分为可验证和不可验证两类,采用不同奖励建模方法,模型的推理能力主要源自可验证问题并能推广至不可验证问题。团队还创建了数学推理评测集BeyondAIME,解决了现有基准规模有限的问题。
在算法方面,字节提出VAPO和DAPO两个RL框架,分别基于价值和无价值的RL范式稳定训练。此外,借鉴了学术界的多项关键技术,如价值预训练、解耦GAE等,进一步优化模型性能。
为解决长尾响应生成问题,团队开发了SRS流式Rollout系统,并设计了混合分布式训练框架,包含TP/EP/CP与FSDP组合、序列长度平衡、内存优化及自动并行等功能。
Seed-Thinking-v1.5在多项评估中表现出色,尤其在AIME 2024基准测试中得分86.7,接近OpenAI o3-mini-high水平。尽管在其他测试中仍有差距,但其潜力备受关注。目前,该模型尚未公开发布,但未来可能部署到字节跳动的豆包APP中。
原文链接
本文链接:https://kx.umi6.com/article/17024.html
转载请注明文章出处
相关推荐
.png)
换一换
LLM神话破灭?苹果论文最新实锤:难以实现真正智能
2025-06-09 20:34:34
OpenAI最强推理模型o3发布,首次能用图片思考
2025-04-17 09:29:43
揭秘:OpenAI是如何发展出推理模型的?
2025-08-04 18:05:57
字节跳动发布豆包 1.5 深度思考模型,同时升级文生图模型
2025-04-17 11:33:28
阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升
2025-07-31 07:59:58
Meta全新AI组织架构曝光,这范儿有点字节
2025-07-18 15:39:38
字节跳动开源其 AI IDE 工具核心组件 Trae-Agent
2025-07-07 08:24:33
OpenAI新推理模型被曝产生更多幻觉
2025-04-21 08:36:41
人员离职、投放下滑,字节AI布局大调整
2025-05-06 21:58:58
字节跳动发布端到端同声传译模型
2025-07-24 13:08:06
小米应用商店与字节跳动旗下一站式AI Agent开发平台扣子达成合作
2025-08-01 17:05:39
字节跳动发布图像编辑模型 SeedEdit 3.0,处理更加丝滑高效
2025-06-06 16:37:39
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
2025-05-16 14:53:48
487 文章
168170 浏览
24小时热文
更多

-
2025-09-07 16:47:03
-
2025-09-07 15:46:08
-
2025-09-07 14:45:54