1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

字节最新推出的深度思考模型Seed-Thinking-v1.5,在数学、代码等多项推理任务中超越了DeepSeek-R1,且参数规模更小。Seed-Thinking-v1.5拥有200B总参数和20B激活参数,而DeepSeek-R1则为671B总参数和37B激活参数。

字节Seed团队通过强化学习提升推理表现,聚焦大规模强化学习并从数据、算法和基础设施三方面入手。他们将训练数据分为可验证和不可验证两类,采用不同奖励建模方法,模型的推理能力主要源自可验证问题并能推广至不可验证问题。团队还创建了数学推理评测集BeyondAIME,解决了现有基准规模有限的问题。

在算法方面,字节提出VAPO和DAPO两个RL框架,分别基于价值和无价值的RL范式稳定训练。此外,借鉴了学术界的多项关键技术,如价值预训练、解耦GAE等,进一步优化模型性能。

为解决长尾响应生成问题,团队开发了SRS流式Rollout系统,并设计了混合分布式训练框架,包含TP/EP/CP与FSDP组合、序列长度平衡、内存优化及自动并行等功能。

Seed-Thinking-v1.5在多项评估中表现出色,尤其在AIME 2024基准测试中得分86.7,接近OpenAI o3-mini-high水平。尽管在其他测试中仍有差距,但其潜力备受关注。目前,该模型尚未公开发布,但未来可能部署到字节跳动的豆包APP中。

原文链接
本文链接:https://kx.umi6.com/article/17024.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
拿下38项第一!字节发布Seed1.5-VL多模态推理模型
2025-05-14 15:15:44
字节跳动申请注册“即梦灵感助手”商标
2025-07-04 15:53:09
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
字节旗下AI编程工具TRAE SOLO发布 面向所有用户开放
2025-11-14 20:13:08
字节跳动发布 Seedance 1.5 pro 模型,支持音视频联合生成
2025-12-16 21:00:49
字节视觉大模型负责人杨建朝今日内部官宣休息,周畅接任
2025-07-17 17:28:24
字节发内部邮件:将禁用Cursor等AI编程工具 用自研Trae替代
2025-05-28 17:18:02
字节跳动发布图像编辑模型SeedEdit 3.0
2025-06-06 16:38:41
字节跳动正推进与多家厂商的AI手机合作
2025-12-19 11:50:22
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
2025-06-13 12:06:17
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
大厂AI Agent角逐 字节跳动携扣子空间进击
2025-04-22 20:31:22
24小时热文
更多
扫一扫体验小程序