1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。

原文链接
本文链接:https://kx.umi6.com/article/14808.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达中国一把手造国产GPU,冲刺IPO了
2025-06-19 17:51:43
摩尔线程:MUSA 成功适配 llama.cpp,直通全球 AI 生态圈
2025-08-06 17:36:40
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
摩尔线程率先支持腾讯混元-A13B 模型,完成全功能 GPU 深度适配
2025-06-29 18:32:47
“中国英伟达”投资人,赚翻了
2025-09-26 17:32:45
摩尔线程科创板IPO上会在即 联美控股收盘三连板 十余家上市公司互动易回复参股投资
2025-09-25 15:07:35
摩尔线程及中介机构回复第二轮审核问询函
2025-09-18 15:58:01
国产算力破局 摩尔线程打通端到端智驾仿真体系
2026-02-24 13:52:01
摩尔线程支持 DeepSeek 开源周“全家桶”
2025-03-02 10:30:14
市值3055亿!摩尔线程敲钟,国产通用GPU第一股来了
2025-12-05 12:24:49
寒武纪、摩尔线程完成对智谱 GLM-4.6 的适配,国产大模型与国产芯片协同进入新阶段
2025-09-30 18:30:45
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
国产GPU历史性时刻!摩尔线程、沐曦同日获IPO受理
2025-07-01 16:26:02
24小时热文
更多
扫一扫体验小程序