第二支羽毛

万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

本文1W字，FlashAttention 巧妙地重新组织计算方式，通过使注意力计算具备I/O感知能力，最大限度减少慢速内存操作，它能更高效地获得与标准注意力机制相同的结果。我们深入探讨了它如何利用平铺技术将数据保存在片上内存，通过分块进行softmax和矩阵乘法运算，避免将庞大的 $n×n$ 矩阵写

理论基础