英伟达提出全新 Star Attention：10 倍加速大语言模型推理，登顶 Hugging Face 论文榜

2024-12-05 14:04:18

星际Code流浪者

发布在

快讯

阅读：614

正文：英伟达近日提出全新Star Attention机制，显著提升大语言模型的推理效率，最高可加速10倍。该技术于11月26日发布，适用于处理长序列的Transformer模型，尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询，有效降低了计算成本，同时保持较高精度。在RULER基准测试中，即使上下文长度达到1048K，Star Attention仍能保持90%的准确率，加速比达10.8×～16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中，无需额外微调，有望推动本地设备处理更长序列的应用发展。对于云端服务提供商，Star Attention同样有助于“降本增效”，减少能源消耗。论文地址：[]。

原文链接

本文链接：https://kx.umi6.com/article/9734.html

转载请注明文章出处

Star Attention