1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:配这种CPU,GPU单卡就能跑满血DeepSeek-R1,至强+ AMX让预填充速度起飞

DeepSeek-R1火爆全球,但推理服务器常宕机,且高昂成本使中小团队望而却步。市面上的“本地部署”方案多为缩水版。近期,清华大学KVCache.AI团队发布的KTransformers开源项目更新,支持在本地24GB显存下运行DeepSeek-R1和V3的671B满血版,预处理速度达286 tokens/s,推理生成速度达14 tokens/s。该项目创新地减少GPU用量至单卡,并凸显CPU作用。

KTransformers早在DeepSeek-V2时代就因“专家卸载”技术备受关注,支持236B大模型在24GB显存的消费级显卡上流畅运行。新版本采用第四代至强可扩展处理器,集成AMX指令集,CPU预填充速度高达286 tokens/s,比llama.cpp快28倍,大幅提高长序列任务效率。

KTransformers提供兼容HuggingFace Transformers的API与ChatGPT式Web界面,降低上手难度。基于YAML的“模板注入框架”可灵活切换优化方式。目前,KTransformers在localLLaMa社区热度第一,有上百条开发者讨论。

团队详细介绍了技术细节,包括利用MoE架构的稀疏性,采用GPU/CPU异构计算划分策略,及基于计算强度的offload策略等。未来,项目将考虑升级至更强的至强6处理器,以进一步提升性能。

原文链接
本文链接:https://kx.umi6.com/article/13396.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
华为昇腾适配支持 DeepSeek-R1 复现项目 Open R1
2025-02-11 18:59:29
阅文集团AI产品集成DeepSeek-R1大模型
2025-02-05 19:18:55
DeepSeek官方推荐:R1要这样设置
2025-02-15 13:02:24
DeepSeek-R1秘籍轻松迁移,只需原始数据0.3% | 邱锡鹏团队联合出品
2025-02-24 16:26:25
腾讯元宝重大更新!接入Deepseek-R1满血版:免费用
2025-02-13 18:15:35
AI界“拼多多”DeepSeek国内外刷屏!龙头20CM一字板,受益上市公司梳理
2025-02-01 16:25:38
满血DeepSeek-R1+Cursor打通!无问芯穹上线API服务,能力拉满,7大国产算力保驾护航
2025-02-11 15:53:01
硅基流动:全面支持基于昇腾算力的DeepSeek-R1&V3私有化集群部署
2025-02-15 07:58:46
微信搜索接入DeepSeek-R1 目前处于灰度测试阶段
2025-02-15 23:11:13
全国首个,深圳海关智能查验机器人引入“满血版”DeepSeek-R1
2025-04-07 09:46:17
英伟达:DeepSeek-R1 模型现已上线 NIM 微服务平台
2025-01-31 09:47:50
DeepSeek,引爆AI手机?
2025-02-07 12:53:26
支持 API 调用,国家超算互联网平台上线 DeepSeek-R1 满血版
2025-02-09 22:53:25
24小时热文
更多
扫一扫体验小程序