字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
字节最新推出的深度思考模型Seed-Thinking-v1.5,在数学、代码等多项推理任务中超越了DeepSeek-R1,且参数规模更小。Seed-Thinking-v1.5拥有200B总参数和20B激活参数,而DeepSeek-R1则为671B总参数和37B激活参数。
字节Seed团队通过强化学习提升推理表现,聚焦大规模强化学习并从数据、算法和基础设施三方面入手。他们将训练数据分为可验证和不可验证两类,采用不同奖励建模方法,模型的推理能力主要源自可验证问题并能推广至不可验证问题。团队还创建了数学推理评测集BeyondAIME,解决了现有基准规模有限的问题。
在算法方面,字节提出VAPO和DAPO两个RL框架,分别基于价值和无价值的RL范式稳定训练。此外,借鉴了学术界的多项关键技术,如价值预训练、解耦GAE等,进一步优化模型性能。
为解决长尾响应生成问题,团队开发了SRS流式Rollout系统,并设计了混合分布式训练框架,包含TP/EP/CP与FSDP组合、序列长度平衡、内存优化及自动并行等功能。
Seed-Thinking-v1.5在多项评估中表现出色,尤其在AIME 2024基准测试中得分86.7,接近OpenAI o3-mini-high水平。尽管在其他测试中仍有差距,但其潜力备受关注。目前,该模型尚未公开发布,但未来可能部署到字节跳动的豆包APP中。
原文链接
本文链接:https://kx.umi6.com/article/17024.html
转载请注明文章出处
相关推荐
换一换
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃
2025-06-08 12:05:30
字节跳动Seed开源VeOmni框架
2025-08-14 16:58:40
字节跳动Seed团队发布扩散语言模型 每秒推理速度2146 tokens
2025-08-01 09:24:01
字节跳动申请注册“即梦灵感助手”商标
2025-07-04 15:53:09
消息称字节为 Seed 部门 AI 大模型技术员工发放期权津贴,每月最高价值 13.5 万元
2025-09-05 00:09:19
字节旗下AI编程工具TRAE SOLO发布 面向所有用户开放
2025-11-14 20:13:08
字节跳动将对Seed部门大模型技术人员增发期权
2025-09-03 12:45:43
字节推出形式化数学推理专用模型Seed Prover 1.5
2025-12-24 12:40:34
字节跳动正推进与多家厂商的AI手机合作
2025-12-19 11:50:22
字节CEO梁汝波:公司2026年关键词是 “勇攀高峰” 豆包/Dola助手应用首当其冲
2026-01-29 21:43:14
xAI推出Grok 4 Fast
2025-09-22 08:57:17
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
2025-07-28 10:09:36
GPT-5 难产内幕曝光:核心团队遭挖空,推理魔咒难破,靠英伟达续命
2025-08-02 17:22:34
672 文章
530454 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38