2月4日,腾讯混元AI Infra团队开源高性能LLM推理核心算子库HPC-Ops。在真实场景下,混元模型推理QPM提升30%,DeepSeek模型QPM提升17%。单算子性能方面,HPC-Ops的Attention较FlashInfer/FlashAttention最高提升2.22倍,GroupGEMM较DeepGEMM最高提升1.88倍,FusedMoE较TensorRT-LLM最高提升1.49倍。该技术开源为行业提供生产级解决方案,显著优化推理效率,展现技术领先性与实用性。
原文链接
本文链接:https://kx.umi6.com/article/32602.html
转载请注明文章出处
相关推荐
换一换
零一万物以“Infra+模型+应用”三体布局 ToB:以数字人、AI Infra 解决方案智赋企业数智化增长
2024-11-07 10:21:59
Agent狂欢下的冷思考
2025-08-13 15:39:12
Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
2025-08-13 13:35:08
让用户无痛开发AI应用,袁进辉新公司获近亿元天使+轮融资 | 36氪首发
2024-07-04 12:29:16
硅基流动完成近亿元天使+轮融资,国产大模型“补足弹药”混战升级
2024-07-06 02:50:32
腾讯混元开源视频音效生成模型
2025-08-28 16:29:54
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
2025-11-25 14:56:08
创想三维接入腾讯混元,3D 打印进入 AI 建模时代
2025-08-11 21:08:06
腾讯混元推出5款3D生成模型 全部开源
2025-03-18 13:38:31
微信首个AI助手上线 可与“元宝”在聊天框对话
2025-04-16 22:16:46
腾讯混元OCR模型宣布开源
2025-11-25 15:00:37
关于 AI Infra 的一切
2025-08-11 19:08:22
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
2025-09-15 14:55:48
688 文章
537537 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33