2024-12-05 14:04:18
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
阅读:614
正文:英伟达近日提出全新Star Attention机制,显著提升大语言模型的推理效率,最高可加速10倍。该技术于11月26日发布,适用于处理长序列的Transformer模型,尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询,有效降低了计算成本,同时保持较高精度。在RULER基准测试中,即使上下文长度达到1048K,Star Attention仍能保持90%的准确率,加速比达10.8×~16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中,无需额外微调,有望推动本地设备处理更长序列的应用发展。对于云端服务提供商,Star Attention同样有助于“降本增效”,减少能源消耗。论文地址:[]。
原文链接
本文链接:https://kx.umi6.com/article/9734.html
转载请注明文章出处
相关推荐
.png)
换一换
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
2025-07-31 11:06:36
腾讯云将全面升级云基础设施
2025-09-16 15:16:55
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
苹果最强芯M4 Max首发!官方定位可开发大模型,新MacBook Pro顶配57099元
2024-10-31 14:48:14
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
摩尔线程、国家信息中心战略合作!国产GPU空前新机遇
2025-10-23 20:13:57
快手进军“AI 编程”赛道,推出“工具 + 模型 + 平台”产品矩阵
2025-10-23 16:09:13
刚拿诺奖就登Nature封面!谷歌“量子回声”算法计算提速13000倍,可重复验证结果
2025-10-22 23:53:36
研究发现:强迫AI大量阅读社交媒体垃圾帖 会造成不可逆的脑损伤
2025-10-22 23:54:44
史无前例!“AI教父”等超800名科技领袖联合呼吁:停止研发超级智能
2025-10-22 16:49:54
肖远企:目前AI在金融领域的应用仍处于早期阶段 无法取代人的决策
2025-10-23 16:12:32
比超级计算机快1.3万倍!谷歌量子计算再现突破 诺奖得主送上关键助攻
2025-10-23 11:03:01
549 文章
250919 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07