1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

字节Seed:大概念模型来了,推理的何必是下一个token

LLM的推理单位,为什么一定要是Token?字节Seed团队最新研究——DLCM(Dynamic Large Concept Models),将大模型的推理单位从Token(词)提升到Concept(概念)层级。通过端到端学习语义边界,动态分割Token序列为概念,在压缩后的概念空间中进行深度推理,并利用因果交叉注意力将结果重构为Token级预测。

相比传统LLM基于均匀Token信息密度的计算分配,DLCM实现了面向概念的动态推理与自适应算力分配。在推理任务中,DLCM不仅将FLOPs降低34%,还提升了平均准确率2.69%,证明了高效语义组织的重要性。

分层的下一Token预测框架

DLCM的核心在于动态Token-概念映射,优化计算资源分配。自然语言的信息分布不均,集中在少数语义节点上,而现有LLM对所有Token统一处理,导致冗余计算。此外,固定粒度的潜在推理框架缺乏自适应性。DLCM通过分层框架,将计算重心转移到压缩后的语义空间,包含以下四个阶段:

  1. 编码阶段:提取细粒度Token表示,捕获局部上下文信息。
  2. 动态分割:基于Token间的局部不相似性(余弦距离),判断语义断点并划分概念。
  3. 概念级推理:在压缩空间中进行深度推理,整合信息。
  4. Token级解码:利用推理后的概念表示,预测下一个Token。

关键技术突破

  • 全局解析器(Global Parser):实现内容自适应压缩,根据信息密度动态划分概念,精准分配计算资源。
  • Flash Attention优化:引入“概念复制”策略,将可变长交叉注意力问题转化为长度对齐的局部恒定问题,加速1.26倍至1.73倍。
  • 异构架构稳定训练:通过解耦参数化方法,为不同模块分配独立宽度缩放因子,确保训练稳定性。
  • 最优分配点探索:研究发现,中等概念主干占比下效率最高,且随模型规模增大优势更明显。

实验表明,DLCM在相同训练条件下,平均准确率达到43.92%,较基线模型提升2.69%

One More Thing

论文一作Qu Xingwei为英国曼彻斯特大学博士生,研究方向包括大语言模型预训练、微调及专家混合系统。他本科毕业于北京航空航天大学,硕士就读于慕尼黑工业大学,曾任职字节跳动和小鹏汽车。

参考链接:
[1] https://x.com/GeZhang86038849
[2] https://arxiv.org/abs/2512.24617

原文链接
本文链接:https://kx.umi6.com/article/31117.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
华为杨超斌:近 8 个月,国内 AI 大模型 Token 所带来的流量增长了 33 倍
2025-03-04 20:33:25
解读大模型价格战:着急的大厂
2024-05-27 09:09:59
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
2025-02-19 14:48:28
你打折、我免费 怎么AI圈突然打价格战了
2024-05-23 18:28:02
字节Seed:大概念模型来了,推理的何必是下一个token
2026-01-05 13:02:57
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
2024-10-22 00:42:45
时隔19天 DeepSeek重新开放API充值:曾因资源紧张暂停充值
2025-02-25 16:04:03
黄仁勋担心中国市场觉醒
2025-05-08 14:31:13
2026年市场变了,钱也要换种放法
2026-01-06 19:28:18
百度百科上线“AI知识图谱”等新功能
2026-01-06 16:14:43
AMD苏姿丰:未来AI无处不在 全球AI计算能力几年内需增加100倍
2026-01-06 13:05:55
夸夸菁领获中金资本旗下基金投资,专注于数智员工与企业数字化创新服务
2026-01-06 19:22:23
24小时热文
更多
扫一扫体验小程序