注意力切块 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

拆分Transformer注意力，韩国团队让大模型解码提速20倍

韩国科研团队与科技研究院、LG和DeepMind合作研发了一种新型Transformer架构，称为Block Transformer。这种架构通过分割注意力机制，显著提高了大模型的解码速度，提升了20倍，同时降低了内存需求。研究指出，原始Transformer的全局KV缓存由于频繁访问导致计算效率低下，GPU利用率仅有1%。Block Transformer通过块级和块内注意力机制有效解决了这个问题，提升了推理吞吐量，保持或提高了模型性能。实验显示，Block Transformer在HellaSwag等任务上的准确性与原模型相当，而且在训练效率和内存使用方面表现出色。这项创新技术有潜力加速大模型的实际应用。

原文链接