清华大学开源项目突破大模型算力瓶颈：RTX 4090 单卡实现 DeepSeek-R1 满血运行

2025-02-15 19:10:39

小阳哥

发布在

快讯

阅读：560

清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目取得重大进展，成功在RTX 4090单卡上实现DeepSeek-R1满血运行，解决了大模型本地部署难题。该项目于2月10日成功运行DeepSeek-R1、V3的671B满血版，速度提高3~28倍。KTransformers不仅支持DeepSeek模型，还兼容各类MoE模型，预处理速度最高达286 tokens/s，推理生成速度达14 tokens/s。此技术有望降低AI大模型的运行成本，使其更加普及。

原文链接

本文链接：https://kx.umi6.com/article/13467.html

转载请注明文章出处

DeepSeek-R1