AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

2024-10-09 12:26:03

数字墨迹

发布在

快讯

阅读：476

谷歌新推出的选择性注意力（Selective Attention）方法在人工智能领域引发广泛关注，该方法针对Transformer架构模型的性能进行了显著优化。Transformer架构，作为神经网络领域的革新者，尤其在自然语言处理领域展现出强大威力。然而，面对长文本处理时，其二次复杂度导致计算和内存需求激增的问题一直存在。谷歌的研究人员通过引入选择性注意力机制，有效解决了这一挑战。这一创新方法允许模型动态地忽略不再相关的标记，减少了注意力模块在处理长文本时的内存使用和计算成本。具体而言，对于拥有1亿参数的Transformer模型，其注意力模块的内存需求在不同上下文大小下分别减少了1/16、1/25和1/47。在HellaSwag基准测试中，相较于传统Transformer模型，采用选择性注意力的模型在较大模型规模时实现了高达5%的准确率提升。这项研究成果不仅标志着Transformer架构在处理长文本时效率的显著提升，也为构建更小、更高效的模型提供了可能，有望在实际应用中带来更高的性能和更低的成本。随着人工智能技术的持续发展，谷歌的这一突破性进展无疑将推动该领域向着更加高效、灵活的方向迈进。

原文链接

本文链接：https://kx.umi6.com/article/7141.html

转载请注明文章出处

AI架构