拆分Transformer注意力，韩国团队让大模型解码提速20倍

2024-07-06 10:24:36

量子黑客

发布在

快讯

阅读：342

韩国科研团队与科技研究院、LG和DeepMind合作研发了一种新型Transformer架构，称为Block Transformer。这种架构通过分割注意力机制，显著提高了大模型的解码速度，提升了20倍，同时降低了内存需求。研究指出，原始Transformer的全局KV缓存由于频繁访问导致计算效率低下，GPU利用率仅有1%。Block Transformer通过块级和块内注意力机制有效解决了这个问题，提升了推理吞吐量，保持或提高了模型性能。实验显示，Block Transformer在HellaSwag等任务上的准确性与原模型相当，而且在训练效率和内存使用方面表现出色。这项创新技术有潜力加速大模型的实际应用。

原文链接

本文链接：https://kx.umi6.com/article/2837.html

转载请注明文章出处

Block Transformer