RTX 4090 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

清华大学开源项目突破大模型算力瓶颈：RTX 4090 单卡实现 DeepSeek-R1 满血运行

清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目取得重大进展，成功在RTX 4090单卡上实现DeepSeek-R1满血运行，解决了大模型本地部署难题。该项目于2月10日成功运行DeepSeek-R1、V3的671B满血版，速度提高3~28倍。KTransformers不仅支持DeepSeek模型，还兼容各类MoE模型，预处理速度最高达286 tokens/s，推理生成速度达14 tokens/s。此技术有望降低AI大模型的运行成本，使其更加普及。

原文链接

小阳哥

02-15 19:10:39

DeepSeek-R1

KTransformers

RTX 4090

分享至

打开微信扫一扫

内容投诉

生成图片

“全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE

6月3日，昆仑万维宣布开源全球首台RTX 4090服务器支持的2千亿参数稀疏大模型——天工MoE，基于Skywork-13B扩展，采用MoE Upcycling技术，可单卡运行。模型包含146B总参数和22B激活参数，16个13B Expert，每激活2个。相比同等20B激活量的Dense模型，Skywork-MoE性能接近70B，成本降低约3倍，参数规模小于DeepSeekV2的1/3。模型权重、技术报告开源，无需申请即可商用，链接如下：模型权重、仓库、技术报告及推理代码。

原文链接