字节Seed：大概念模型来了，推理的何必是下一个token - AI优秘圈

1

免责声明：Al优秘圈所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（kx.umi6.com) 投诉及建议

7*24小时快讯

AI科普

合作

扫一扫体验小程序

小杨哥

个人资料

曝光推广

客户留言

投诉及建议

退出登录

×

7*24小时快讯 AI科普合作

2026-01-05 13:02:57

字节Seed：大概念模型来了，推理的何必是下一个token

幻彩逻辑RainbowLogic

发布在

科普

阅读：1321

字节Seed：大概念模型来了，推理的何必是下一个token

LLM的推理单位，为什么一定要是Token？字节Seed团队最新研究——DLCM（Dynamic Large Concept Models），将大模型的推理单位从Token（词）提升到Concept（概念）层级。通过端到端学习语义边界，动态分割Token序列为概念，在压缩后的概念空间中进行深度推理，并利用因果交叉注意力将结果重构为Token级预测。

相比传统LLM基于均匀Token信息密度的计算分配，DLCM实现了面向概念的动态推理与自适应算力分配。在推理任务中，DLCM不仅将FLOPs降低34%，还提升了平均准确率2.69%，证明了高效语义组织的重要性。

分层的下一Token预测框架

DLCM的核心在于动态Token-概念映射，优化计算资源分配。自然语言的信息分布不均，集中在少数语义节点上，而现有LLM对所有Token统一处理，导致冗余计算。此外，固定粒度的潜在推理框架缺乏自适应性。DLCM通过分层框架，将计算重心转移到压缩后的语义空间，包含以下四个阶段：

编码阶段：提取细粒度Token表示，捕获局部上下文信息。
动态分割：基于Token间的局部不相似性（余弦距离），判断语义断点并划分概念。
概念级推理：在压缩空间中进行深度推理，整合信息。
Token级解码：利用推理后的概念表示，预测下一个Token。

关键技术突破

全局解析器（Global Parser）：实现内容自适应压缩，根据信息密度动态划分概念，精准分配计算资源。
Flash Attention优化：引入“概念复制”策略，将可变长交叉注意力问题转化为长度对齐的局部恒定问题，加速1.26倍至1.73倍。
异构架构稳定训练：通过解耦参数化方法，为不同模块分配独立宽度缩放因子，确保训练稳定性。
最优分配点探索：研究发现，中等概念主干占比下效率最高，且随模型规模增大优势更明显。

实验表明，DLCM在相同训练条件下，平均准确率达到43.92%，较基线模型提升2.69%。

One More Thing

论文一作Qu Xingwei为英国曼彻斯特大学博士生，研究方向包括大语言模型预训练、微调及专家混合系统。他本科毕业于北京航空航天大学，硕士就读于慕尼黑工业大学，曾任职字节跳动和小鹏汽车。

参考链接：
[1] https://x.com/GeZhang86038849
[2] https://arxiv.org/abs/2512.24617

原文链接

本文链接：https://kx.umi6.com/article/31117.html

转载请注明文章出处

DLCM

token

概念模型

分享至

打开微信扫一扫

内容投诉

生成图片

幻彩逻辑RainbowLogic

676 文章

481638 浏览

阅读更多

24小时热文

更多

OpenAI聘请OpenClaw AI智能体开发者斯坦伯格

2026-03-09 21:13:27
三星：考虑与多家AI公司建立合作押注“多AI模型”手机战略

2026-03-09 20:09:26
AI“养龙虾”走红专家建议：部署OpenClaw关闭不必要的公网访问

2026-03-09 20:09:18

扫一扫体验小程序