综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:KTransformers 成主流大模型推理引擎,单卡跑万亿模型
正文:
趋境科技与清华联合开源的高性能异构推理框架 KTransformers,已成为 Qwen、Kimi、智谱 AI 等主流大模型的推荐推理引擎,并被多家硬件厂商采纳。其技术实力获国际认可,论文入选“计算机系统领域奥斯卡”...
原文链接
正文:2025年11月,趋境科技联合清华大学和北航开源了KTransformers与LLaMA-Factory两大项目,大幅降低大模型微调门槛。仅需2-4张消费级显卡(如4090),即可在本地微调参数量达万亿的模型(如Kimi K2 1TB)。传统方法需数千GB显存,而新技术将显存需求压缩至90GB左右。KTransformers通过GPU+CPU异构计算优化性能,LLaMA-Factory提供易用的微调框架。二者结合支持个性化定制AI模型,适用于专业领域(如医疗、法律)及创意应用(如虚拟角色生成)。此技术为学术界、企业和个人开发者提供了低成本高效率的大模型解决方案,推动AI创新落地。
原文链接
2025年10月,KTransformers项目论文入选计算机系统顶会SOSP 2025,并与主流推理框架SGLang达成合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发,是一款高性能异构推理框架,专注于CPU+GPU协同执行,显著降低大模型推理的硬件门槛。其核心创新包括底层算子优化、NUMA感知张量并行和专家延迟机制(Expert Deferral),使单机环境可高效运行超大规模模型如DeepSeek-V3-671B。此次与SGLang的合作实现了全GPU推理与异构推理的融合,为开发者提供更灵活的硬件选择。目前,KTransformers已在GitHub获得15.2K Star,被多个主流大模型及厂商推荐使用,致力于推动算力普惠与AI基础设施的普及。
原文链接
清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目取得重大进展,成功在RTX 4090单卡上实现DeepSeek-R1满血运行,解决了大模型本地部署难题。该项目于2月10日成功运行DeepSeek-R1、V3的671B满血版,速度提高3~28倍。KTransformers不仅支持DeepSeek模型,还兼容各类MoE模型,预处理速度最高达286 tokens/s,推理生成速度达14 tokens/s。此技术有望降低AI大模型的运行成本,使其更加普及。
原文链接
标题:4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1广受关注,但推理服务器常宕机,专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版,因671B参数的MoE架构对显存要求极高,即便用8卡A100也难负荷。近期...
原文链接
加载更多
暂无内容