11月5日,华为宣布开源其AI推理加速关键技术——UCM(Unified Cache Manager)推理记忆数据管理。该技术通过KV Cache多级缓存与推理记忆管理,结合推理框架、算力和存储的三层协同,解决长序列推理效率低和成本高的问题。UCM架构包含稀疏化模块、稀疏化KV管理器、KV Cache存储组件及UCM连接器等关键模块,具备稀疏注意力、前缀缓存等四大能力,最高可降低首Token时延90%,提升系统吞吐22倍,并扩展上下文窗口达10倍。目前,UCM已在ModelEngine社区开放源代码与技术文档,开发者可通过GitCode或Github获取资源。
原文链接
本文链接:https://kx.umi6.com/article/27844.html
转载请注明文章出处
相关推荐
换一换
智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”
2025-08-11 23:10:30
腾讯智能体框架 Youtu-Agent 开源,搭建 Agent 只需两步
2025-09-02 16:34:48
通义万相全新动作生成模型开源
2025-09-19 15:17:03
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
2025-10-04 10:57:38
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
2025-09-12 12:10:41
月之暗面杨植麟、周昕宇、吴育昕罕见回应一切:打假 460 万美元、调侃 OpenAI
2025-11-12 09:56:27
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
通义千问最新AI编程大模型Qwen3-Coder正式开源
2025-07-23 07:45:34
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”
2025-07-03 13:21:28
业界首个,腾讯混元 3D 世界模型正式发布并开源
2025-07-27 11:55:13
小米开源首个原生端到端语音大模型
2025-09-19 10:10:03
665 文章
456798 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29