2025年10月,KTransformers项目论文入选计算机系统顶会SOSP 2025,并与主流推理框架SGLang达成合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发,是一款高性能异构推理框架,专注于CPU+GPU协同执行,显著降低大模型推理的硬件门槛。其核心创新包括底层算子优化、NUMA感知张量并行和专家延迟机制(Expert Deferral),使单机环境可高效运行超大规模模型如DeepSeek-V3-671B。此次与SGLang的合作实现了全GPU推理与异构推理的融合,为开发者提供更灵活的硬件选择。目前,KTransformers已在GitHub获得15.2K Star,被多个主流大模型及厂商推荐使用,致力于推动算力普惠与AI基础设施的普及。
原文链接
本文链接:https://kx.umi6.com/article/27154.html
转载请注明文章出处
相关推荐
.png)
换一换
字节对MoE模型训练成本再砍一刀 成本可节省40%
2025-03-10 17:52:30
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
2025-05-19 14:16:37
清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行
2025-02-15 19:10:39
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
2025-05-20 14:38:41
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
2024-09-15 22:56:05
通义千问 Qwen 2.5-Max 超大规模 MoE 模型号称优于 Deepseek V3 等竞品,暂未开源
2025-01-29 03:58:28
MiniMax闫俊杰对话黄明明:AGI,只有一条最难但唯一的道路
2024-06-20 18:35:57
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
2025-02-12 13:26:11
英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法
2024-06-20 20:26:57
腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1
2024-11-07 10:16:21
“狠人”闫俊杰,闯关IPO
2025-07-11 13:37:48
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
2025-10-23 10:01:08
DeepSeek扔的第二枚开源王炸到底是什么?
2025-02-25 20:07:11
526 文章
258605 浏览
24小时热文
更多

-
2025-10-23 14:07:29
-
2025-10-23 14:06:33
-
2025-10-23 14:05:22