2024-12-05 14:04:18
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
阅读:433
正文:英伟达近日提出全新Star Attention机制,显著提升大语言模型的推理效率,最高可加速10倍。该技术于11月26日发布,适用于处理长序列的Transformer模型,尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询,有效降低了计算成本,同时保持较高精度。在RULER基准测试中,即使上下文长度达到1048K,Star Attention仍能保持90%的准确率,加速比达10.8×~16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中,无需额外微调,有望推动本地设备处理更长序列的应用发展。对于云端服务提供商,Star Attention同样有助于“降本增效”,减少能源消耗。论文地址:[]。
原文链接
本文链接:https://kx.umi6.com/article/9734.html
转载请注明文章出处
相关推荐
.png)
换一换
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
2025-07-31 11:06:36
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
苹果最强芯M4 Max首发!官方定位可开发大模型,新MacBook Pro顶配57099元
2024-10-31 14:48:14
智谱打响中场战事
2025-09-06 06:30:37
OpenAI今年预计通过ChatGPT实现近100亿美元收入,机构称GPT-5将给硬件和应用端这些企业带来机遇
2025-09-06 16:37:17
商汤日日新为 Claude API 用户提供“搬家”服务:可获 5000 万 Tokens 体验包
2025-09-06 15:35:37
躺不平的企业微信
2025-09-06 10:32:35
巴克莱银行:AI浪潮有望催生千亿美元以上级并购交易
2025-09-04 19:08:00
新一轮AI浏览器大战,谷歌将掉队了?
2025-09-05 10:20:22
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
趁着HBM热潮加速!SK海力士Q2蝉联全球DRAM市占率第一
2025-09-05 13:22:16
501 文章
164950 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24