2024-12-05 14:04:18
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
阅读:618
正文:英伟达近日提出全新Star Attention机制,显著提升大语言模型的推理效率,最高可加速10倍。该技术于11月26日发布,适用于处理长序列的Transformer模型,尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询,有效降低了计算成本,同时保持较高精度。在RULER基准测试中,即使上下文长度达到1048K,Star Attention仍能保持90%的准确率,加速比达10.8×~16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中,无需额外微调,有望推动本地设备处理更长序列的应用发展。对于云端服务提供商,Star Attention同样有助于“降本增效”,减少能源消耗。论文地址:[]。
原文链接
本文链接:https://kx.umi6.com/article/9734.html
转载请注明文章出处
相关推荐
换一换
苹果最强芯M4 Max首发!官方定位可开发大模型,新MacBook Pro顶配57099元
2024-10-31 14:48:14
腾讯云将全面升级云基础设施
2025-09-16 15:16:55
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
英伟达提出全新 Star Attention:10 倍加速大语言模型推理,登顶 Hugging Face 论文榜
2024-12-05 14:04:18
Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
2025-07-31 11:06:36
2025 日本国际机器人展闭幕,中国企业占据人形机器人半壁江山
2025-12-07 22:51:22
豆包手机助手:已下线操作银行、互联网支付类APP的能力
2025-12-06 18:44:32
OpenAI、阿里、字节们的AI硬件战事:害怕错过下一代入口
2025-12-06 12:27:46
荣耀工程师谈豆包手机:AI 时代新的交互模式探索,未来一定会涌现更多“体验闭环
2025-12-08 10:18:34
Airwallex 空中云汇完成3.3 亿美元 G 轮融资,估值80 亿美元
2025-12-08 16:35:51
华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升
2025-12-06 02:03:09
阴和俊:在量子科技等领域布局建设未来产业 加强对国家重大科技任务和科技型企业的金融支持
2025-12-08 10:23:04
610 文章
345980 浏览
24小时热文
更多
-
2025-12-08 19:45:13 -
2025-12-08 19:43:05 -
2025-12-08 18:41:52