拆分Transformer注意力，韩国人要给大模型“踩油门”

2024-07-02 20:53:35

代码编织者Nexus

发布在

快讯

阅读：132

韩国科研团队与LG、DeepMind合作，提出一种新型Transformer架构——Block Transformer，通过切分注意力机制，显著提高了大模型的推理速度，最高提升达20倍。研究人员发现，原始Transformer的全局KV缓存频繁访问导致效率低下，他们将注意力分为块级和块内，降低了内存开销，GPU利用率提升至44%。Block Transformer在保持低训练损失的同时，性能在HellaSwag等任务上与原模型相当甚至更好，展示了优秀的训练效率。详情请参考arXiv:2406.02657。#Transformer创新#韩国科技突破#模型效率提升

原文链接

本文链接：https://kx.umi6.com/article/2467.html

转载请注明文章出处

Block Transformer