2024-12-05 14:04:18
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
阅读:829
正文:英伟达近日提出全新Star Attention机制,显著提升大语言模型的推理效率,最高可加速10倍。该技术于11月26日发布,适用于处理长序列的Transformer模型,尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询,有效降低了计算成本,同时保持较高精度。在RULER基准测试中,即使上下文长度达到1048K,Star Attention仍能保持90%的准确率,加速比达10.8×~16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中,无需额外微调,有望推动本地设备处理更长序列的应用发展。对于云端服务提供商,Star Attention同样有助于“降本增效”,减少能源消耗。论文地址:[]。
原文链接
本文链接:https://kx.umi6.com/article/9734.html
转载请注明文章出处
相关推荐
换一换
Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
2025-07-31 11:06:36
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
腾讯云将全面升级云基础设施
2025-09-16 15:16:55
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
苹果最强芯M4 Max首发!官方定位可开发大模型,新MacBook Pro顶配57099元
2024-10-31 14:48:14
CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价
2026-04-23 16:19:37
中信证券:物理AI蓬勃发展 场景落地有望提速
2026-04-24 09:03:22
腾讯与阿里巴巴洽谈投资DeepSeek 估值超过200亿美元
2026-04-22 19:27:03
新模型上线期间出现功能异常 月之暗面公布补偿方案:全员额度重置
2026-04-22 22:32:08
联检科技等成立新公司 含AI及物联网业务
2026-04-24 15:19:39
斑马智能接入支付宝AI付车载版 打通AI座舱“支付即服务”
2026-04-24 17:25:23
国家知识产权局:将积极完善新兴领域知识产权保护制度
2026-04-23 17:20:53
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
723 文章
583698 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38