1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。

原文链接
本文链接:https://kx.umi6.com/article/14808.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
摩尔线程支持 DeepSeek 开源周“全家桶”
2025-03-02 10:30:14
英伟达中国一把手造国产GPU,冲刺IPO了
2025-06-19 17:51:43
抢下120亿,这届芯片老兵要翻身了
2025-07-09 18:08:01
24小时热文
更多
扫一扫体验小程序