字节Seed:大概念模型来了,推理的何必是下一个token
LLM的推理单位,为什么一定要是Token?字节Seed团队最新研究——DLCM(Dynamic Large Concept Models),将大模型的推理单位从Token(词)提升到Concept(概念)层级。通过端到端学习语义边界,动态分割Token序列为概念,在压缩后的概念空间中进行深度推理,并利用因果交叉注意力将结果重构为Token级预测。
相比传统LLM基于均匀Token信息密度的计算分配,DLCM实现了面向概念的动态推理与自适应算力分配。在推理任务中,DLCM不仅将FLOPs降低34%,还提升了平均准确率2.69%,证明了高效语义组织的重要性。
分层的下一Token预测框架
DLCM的核心在于动态Token-概念映射,优化计算资源分配。自然语言的信息分布不均,集中在少数语义节点上,而现有LLM对所有Token统一处理,导致冗余计算。此外,固定粒度的潜在推理框架缺乏自适应性。DLCM通过分层框架,将计算重心转移到压缩后的语义空间,包含以下四个阶段:
- 编码阶段:提取细粒度Token表示,捕获局部上下文信息。
- 动态分割:基于Token间的局部不相似性(余弦距离),判断语义断点并划分概念。
- 概念级推理:在压缩空间中进行深度推理,整合信息。
- Token级解码:利用推理后的概念表示,预测下一个Token。
关键技术突破
- 全局解析器(Global Parser):实现内容自适应压缩,根据信息密度动态划分概念,精准分配计算资源。
- Flash Attention优化:引入“概念复制”策略,将可变长交叉注意力问题转化为长度对齐的局部恒定问题,加速1.26倍至1.73倍。
- 异构架构稳定训练:通过解耦参数化方法,为不同模块分配独立宽度缩放因子,确保训练稳定性。
- 最优分配点探索:研究发现,中等概念主干占比下效率最高,且随模型规模增大优势更明显。
实验表明,DLCM在相同训练条件下,平均准确率达到43.92%,较基线模型提升2.69%。
One More Thing
论文一作Qu Xingwei为英国曼彻斯特大学博士生,研究方向包括大语言模型预训练、微调及专家混合系统。他本科毕业于北京航空航天大学,硕士就读于慕尼黑工业大学,曾任职字节跳动和小鹏汽车。
参考链接:
[1] https://x.com/GeZhang86038849
[2] https://arxiv.org/abs/2512.24617
原文链接
本文链接:https://kx.umi6.com/article/31117.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
黄仁勋发Token当工资!硅谷兴起刷量大赛,一人烧掉33个维基百科
2026-03-23 12:09:35
“Token”这个词的搜索量最高一天达到7.7万次 比去年日均搜索量高出1850%
2026-03-28 20:15:44
Token一词该怎么翻译!清华教授提议中文名为模元
2026-03-20 16:48:30
解读大模型价格战:着急的大厂
2024-05-27 09:09:59
你打折、我免费 怎么AI圈突然打价格战了
2024-05-23 18:28:02
中文名确定!Token正式被译名为“词元”:我国日均调用量突破140万亿
2026-03-24 16:01:46
从Token到词元:全模态时代的基模与交互入口
2026-03-27 12:58:21
国家数据局局长刘烈宏:今年3月中国日均Token调用量已突破140万亿 两年增长超千倍
2026-03-23 18:37:57
时隔19天 DeepSeek重新开放API充值:曾因资源紧张暂停充值
2025-02-25 16:04:03
黄仁勋担心中国市场觉醒
2025-05-08 14:31:13
华为杨超斌:近 8 个月,国内 AI 大模型 Token 所带来的流量增长了 33 倍
2025-03-04 20:33:25
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
2025-02-19 14:48:28
711 文章
569887 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21