摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。
原文链接
本文链接:https://kx.umi6.com/article/14808.html
转载请注明文章出处
相关推荐
换一换
估值255亿!“中国英伟达”GPU独角兽摩尔线程启动IPO上市辅导
2024-11-13 07:26:24
摩尔线程支持 DeepSeek 开源周“全家桶”
2025-03-02 10:30:14
“中国版英伟达”闪电过会,从受理到过会仅用时88天
2025-09-28 13:54:28
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
首个国产全功能GPU的万卡集群来了!“中国英伟达”出品
2024-07-04 20:43:24
摩尔线程率先支持腾讯混元-A13B 模型,完成全功能 GPU 深度适配
2025-06-29 18:32:47
摩尔线程开源 OpenCV-MUSA:支持绝大部分 cv::cuda 命名空间下数据结构及 API
2024-09-20 18:11:58
摩尔线程:MUSA 成功适配 llama.cpp,直通全球 AI 生态圈
2025-08-06 17:36:40
寒武纪、摩尔线程完成对智谱 GLM-4.6 的适配,国产大模型与国产芯片协同进入新阶段
2025-09-30 18:30:45
最像英伟达的中国公司,要上市了
2025-10-13 07:56:08
“中国英伟达”投资人,赚翻了
2025-09-26 17:32:45
抢下120亿,这届芯片老兵要翻身了
2025-07-09 18:08:01
摩尔线程还没上市,“概念股”已经抢飞了
2025-09-23 19:21:44
522 文章
244725 浏览
24小时热文
更多
-
2025-10-26 09:02:15 -
2025-10-26 08:00:01 -
2025-10-26 00:45:16