1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛

DeepSeek-R1广受关注,但推理服务器常宕机,专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版,因671B参数的MoE架构对显存要求极高,即便用8卡A100也难负荷。近期,清华大学KVCache.AI团队与趋境科技发布的KTransformers开源项目更新,支持在24GB显存的本地硬件上运行DeepSeek-R1和V3的671B满血版,预处理速度达286 tokens/s,推理生成速度达14 tokens/s。

该项目早在DeepSeek-V2时代便因“专家卸载”技术备受关注,支持236B模型在24GB显存的消费级显卡上流畅运行,显存需求降至1/10。新版发布后,开发者实测显示,借助Unsloth优化,Q2_K_XL模型的推理速度达9.1 tokens/s,实现千亿级模型“家庭化”。KTransformers团队还公布了v0.3预览版性能指标,CPU预填充速度最高达286 tokens/s,比llama.cpp快28倍,适用于长序列任务如大规模代码库分析。

KTransformers提供兼容HuggingFace Transformers的API及ChatGPT式Web界面,降低上手难度。其“模板注入框架”支持灵活切换量化策略、内核替换等优化。项目在localLLaMa社区热度高居不下,吸引上百名开发者参与讨论。团队详细介绍了技术细节,采用GPU/CPU异构计算划分策略,结合offload策略、高性能算子及CUDA Graph加速,大幅提升推理性能。KTransformers兼容多种MoE模型和算子,支持Windows和Linux平台,为科研工作者提供低成本的推理路径。

原文链接
本文链接:https://kx.umi6.com/article/13199.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯元宝重大更新!接入Deepseek-R1满血版:免费用
2025-02-13 18:15:35
硅基流动:全面支持基于昇腾算力的DeepSeek-R1&V3私有化集群部署
2025-02-15 07:58:46
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
2025-10-23 10:01:08
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
2025-11-05 16:12:15
硅基流动助力华为小艺接入 DeepSeek-R1 模型
2025-02-08 00:09:00
网易有道宣布拥抱 DeepSeek 大模型,智能硬件新品不久后推出
2025-02-06 19:39:35
企业微信接入DeepSeek
2025-02-21 13:52:13
QQ 音乐已集成满血版 DeepSeek-R1,AI 助手音乐问答更精准
2025-02-11 08:39:50
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力!北大港科大出品,已开源
2025-02-06 09:24:07
DeepSeek-R1 成 Hugging Face 最受欢迎大模型,力压近 150 万个“对手”
2025-02-24 09:14:26
梁文锋不着急
2025-05-30 21:56:33
DeepSeek-R1 大模型登陆腾讯云,宣称“一键部署、3 分钟调用”
2025-02-02 11:44:23
24小时热文
更多
扫一扫体验小程序