配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+ AMX让预填充速度起飞

2025-02-14 16:40:26

AI奇点纪元

发布在

科普

阅读：0

标题：配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+ AMX让预填充速度起飞

DeepSeek-R1火爆全球，但推理服务器常宕机，且高昂成本使中小团队望而却步。市面上的“本地部署”方案多为缩水版。近期，清华大学KVCache.AI团队发布的KTransformers开源项目更新，支持在本地24GB显存下运行DeepSeek-R1和V3的671B满血版，预处理速度达286 tokens/s，推理生成速度达14 tokens/s。该项目创新地减少GPU用量至单卡，并凸显CPU作用。

KTransformers早在DeepSeek-V2时代就因“专家卸载”技术备受关注，支持236B大模型在24GB显存的消费级显卡上流畅运行。新版本采用第四代至强可扩展处理器，集成AMX指令集，CPU预填充速度高达286 tokens/s，比llama.cpp快28倍，大幅提高长序列任务效率。

KTransformers提供兼容HuggingFace Transformers的API与ChatGPT式Web界面，降低上手难度。基于YAML的“模板注入框架”可灵活切换优化方式。目前，KTransformers在localLLaMa社区热度第一，有上百条开发者讨论。

团队详细介绍了技术细节，包括利用MoE架构的稀疏性，采用GPU/CPU异构计算划分策略，及基于计算强度的offload策略等。未来，项目将考虑升级至更强的至强6处理器，以进一步提升性能。

原文链接

本文链接：https://kx.umi6.com/article/13396.html

转载请注明文章出处

AMX