Transformers - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

趋境开源框架 KTransformers 成主流大模型首选，Qwen、Kimi、智谱 AI 推荐，单卡跑万亿模型

标题：KTransformers 成主流大模型推理引擎，单卡跑万亿模型正文：趋境科技与清华联合开源的高性能异构推理框架 KTransformers，已成为 Qwen、Kimi、智谱 AI 等主流大模型的推荐推理引擎，并被多家硬件厂商采纳。其技术实力获国际认可，论文入选“计算机系统领域奥斯卡”...

原文链接

DreamCoder

11-20 22:47:09

KTransformers

大模型推理

异构计算

分享至

打开微信扫一扫

内容投诉

生成图片

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

正文：2025年11月，趋境科技联合清华大学和北航开源了KTransformers与LLaMA-Factory两大项目，大幅降低大模型微调门槛。仅需2-4张消费级显卡（如4090），即可在本地微调参数量达万亿的模型（如Kimi K2 1TB）。传统方法需数千GB显存，而新技术将显存需求压缩至90GB左右。KTransformers通过GPU+CPU异构计算优化性能，LLaMA-Factory提供易用的微调框架。二者结合支持个性化定制AI模型，适用于专业领域（如医疗、法律）及创意应用（如虚拟角色生成）。此技术为学术界、企业和个人开发者提供了低成本高效率的大模型解决方案，推动AI创新落地。

原文链接

星际Code流浪者

11-05 16:12:15

KTransformers

LLaMA-Factory

微调

分享至

打开微信扫一扫

内容投诉

生成图片

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

2025年10月，KTransformers项目论文入选计算机系统顶会SOSP 2025，并与主流推理框架SGLang达成合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发，是一款高性能异构推理框架，专注于CPU+GPU协同执行，显著降低大模型推理的硬件门槛。其核心创新包括底层算子优化、NUMA感知张量并行和专家延迟机制（Expert Deferral），使单机环境可高效运行超大规模模型如DeepSeek-V3-671B。此次与SGLang的合作实现了全GPU推理与异构推理的融合，为开发者提供更灵活的硬件选择。目前，KTransformers已在GitHub获得15.2K Star，被多个主流大模型及厂商推荐使用，致力于推动算力普惠与AI基础设施的普及。

原文链接

数码游侠

10-23 10:01:08

KTransformers

MoE模型

异构推理

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 推出 CATransformers 框架，AI 减排新利器

5月14日，Meta AI旗下FAIR团队与佐治亚理工学院合作推出CATransformers框架，旨在将碳排放纳入AI模型设计的核心考量。该框架通过多目标贝叶斯优化，平衡模型架构、硬件性能与碳足迹之间的关系。研究显示，传统方法仅优化运营效率忽视硬件全生命周期碳排放，而CATransformers可使碳排放降低17%-3%，同时保持低延迟（10-15毫秒）。例如，CarbonCLIP-S与TinyCLIP-39M精度相当，但碳排放减少17%；CarbonCLIP-XS精度提升8%，碳排放减少3%。此框架为AI可持续发展提供新路径，尤其适用于边缘设备推理场景。

原文链接

数据炼金师

05-16 14:18:11

AI减排

CATransformers

Meta

分享至

打开微信扫一扫

内容投诉

生成图片

清华大学开源项目突破大模型算力瓶颈：RTX 4090 单卡实现 DeepSeek-R1 满血运行

清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目取得重大进展，成功在RTX 4090单卡上实现DeepSeek-R1满血运行，解决了大模型本地部署难题。该项目于2月10日成功运行DeepSeek-R1、V3的671B满血版，速度提高3~28倍。KTransformers不仅支持DeepSeek模型，还兼容各类MoE模型，预处理速度最高达286 tokens/s，推理生成速度达14 tokens/s。此技术有望降低AI大模型的运行成本，使其更加普及。

原文链接

小阳哥

02-15 19:10:39

DeepSeek-R1

KTransformers

RTX 4090

分享至

打开微信扫一扫

内容投诉

生成图片

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

标题：4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛 DeepSeek-R1广受关注，但推理服务器常宕机，专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版，因671B参数的MoE架构对显存要求极高，即便用8卡A100也难负荷。近期...

原文链接

智能维度跳跃

02-12 13:26:11

DeepSeek-R1

KTransformers

MoE架构

分享至

打开微信扫一扫

内容投诉

生成图片

“通用大脑”来了！MIT何恺明用大模型思维玩出机器人预训练新花样

标题：“通用大脑”来了！MIT何恺明用大模型思维玩出机器人预训练新花样在机器人领域，“通用智能”的探索正在火热进行。MIT的何恺明和Lirui Wang等人最近在“通用数据”上取得进展，使机器人离“通用大脑”的目标更近一步。以往，训练机器人需要针对每种任务和环境单独采集数据，导致数据难以通用，训...

原文链接

AI思维矩阵

11-08 16:31:48

异构预训练Transformers

机器人预训练

通用大脑

分享至

打开微信扫一扫

内容投诉

生成图片

生成式AI可能迎来下一个风口：TTT模型

TTT模型可能引领生成式AI新潮流。当前的Transformer架构，如Sora、Claude和GPT-4等，面临计算效率和资源消耗的问题。斯坦福等大学的研究团队开发出TTT，它在处理更多数据时更节能。不同于Transformer的隐藏状态，TTT采用机器学习模型，将数据编码为固定大小的权重，从而避免了重复计算。TTT有潜力处理海量数据，如长视频，且性能不受数据量影响。尽管如此，TTT是否能取代Transformer尚不确定，因其目前仅在小型模型上测试，大型模型的对比还需更多实证。TTT被视作一项创新，但其优势还需更多数据支持和实际应用验证。

原文链接