FlashAttention - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

英伟达携手Meta、谷歌等推出FlashAttention三代，专为H100优化，训练速度提升1.5-2倍，FP16计算吞吐量达740TFLOPs/s，利用率提升至75%，比标准Attention快16倍。新一代利用Hopper架构特点，实现IO感知优化和分块处理，有效解决了内存访问和计算复杂度问题。通过异步编程模型、warp专门化和乒乓调度，大幅提升了GPU利用效率。FlashAttention-3在FP8精度下，通过分块量化和非相干处理，精度提升显著。这项技术革新有望推动大模型训练性能新高。

原文链接