4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

2025-02-12 13:26:11

智能维度跳跃

发布在

科普

阅读：319

标题：4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

DeepSeek-R1广受关注，但推理服务器常宕机，专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版，因671B参数的MoE架构对显存要求极高，即便用8卡A100也难负荷。近期，清华大学KVCache.AI团队与趋境科技发布的KTransformers开源项目更新，支持在24GB显存的本地硬件上运行DeepSeek-R1和V3的671B满血版，预处理速度达286 tokens/s，推理生成速度达14 tokens/s。

该项目早在DeepSeek-V2时代便因“专家卸载”技术备受关注，支持236B模型在24GB显存的消费级显卡上流畅运行，显存需求降至1/10。新版发布后，开发者实测显示，借助Unsloth优化，Q2_K_XL模型的推理速度达9.1 tokens/s，实现千亿级模型“家庭化”。KTransformers团队还公布了v0.3预览版性能指标，CPU预填充速度最高达286 tokens/s，比llama.cpp快28倍，适用于长序列任务如大规模代码库分析。

KTransformers提供兼容HuggingFace Transformers的API及ChatGPT式Web界面，降低上手难度。其“模板注入框架”支持灵活切换量化策略、内核替换等优化。项目在localLLaMa社区热度高居不下，吸引上百名开发者参与讨论。团队详细介绍了技术细节，采用GPU/CPU异构计算划分策略，结合offload策略、高性能算子及CUDA Graph加速，大幅提升推理性能。KTransformers兼容多种MoE模型和算子，支持Windows和Linux平台，为科研工作者提供低成本的推理路径。

原文链接

本文链接：https://kx.umi6.com/article/13199.html

转载请注明文章出处

DeepSeek-R1