1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。

原文链接
本文链接:https://kx.umi6.com/article/14808.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
摩尔线程 MTT S4000 训推一体计算卡通过中国信通院 AI 芯片和大模型适配验证
2025-05-08 10:25:57
英伟达中国一把手造国产GPU,冲刺IPO了
2025-06-19 17:51:43
估值255亿!“中国英伟达”GPU独角兽摩尔线程启动IPO上市辅导
2024-11-13 07:26:24
摩尔线程算力专区正式上线 AutoDL 平台,首次将国产 GPU 算力开放至 AI 开发一线
2025-05-22 08:21:47
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
国产GPU历史性时刻!摩尔线程、沐曦同日获IPO受理
2025-07-01 16:26:02
摩尔线程开源 OpenCV-MUSA:支持绝大部分 cv::cuda 命名空间下数据结构及 API
2024-09-20 18:11:58
摩尔线程支持 DeepSeek 开源周“全家桶”
2025-03-02 10:30:14
摩尔线程新方法优化AI交互:显存节省最多82%
2025-03-04 19:31:51
国产GPU跑满血DeepSeek,已经可以100 tokens/s了!
2025-07-26 18:43:48
抢下120亿,这届芯片老兵要翻身了
2025-07-09 18:08:01
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
摩尔线程:MUSA 成功适配 llama.cpp,直通全球 AI 生态圈
2025-08-06 17:36:40
24小时热文
更多
扫一扫体验小程序