90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！

2025-03-12 13:24:55

AI创意引擎

发布在

科普

阅读：886

标题：90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！

生成10万Token的文本，传统自回归模型需近5小时，现仅需90分钟。最新研究提出名为TOKENSWIFT的框架，优化模型加载、KV缓存管理和Token生成策略，实现在保证生成质量和多样性前提下的无损加速。

TOKENSWIFT框架主要创新点包括： 1. 多Token并行生成与Token复用：借鉴Medusa方法，通过引入线性层使模型在一次前向传播中生成多个草稿Token，并自动检索复用高频短语。 2. 动态KV缓存更新策略：保留初始KV缓存，按Token重要性进行有序替换，控制缓存规模并降低延迟。 3. 基于树结构的多候选Token验证：采用树形注意力机制，构建包含多个候选Token组合的树形结构，确保生成过程无损且多样性提升。 4. 上下文惩罚策略：在生成过程中为近期生成的Token施加惩罚，促使模型选择多样化输出，减少重复现象。

实验表明，TOKENSWIFT在生成10万Token时，相较于传统自回归方法，平均实现3倍以上加速，且生成结果在准确性和多样性上基本保持无损。

原文链接

本文链接：https://kx.umi6.com/article/15289.html

转载请注明文章出处

TOKENSWIFT框架