FlashAttention:具有 IO 感知的快速且内存高效的精确注意力研究

引言 Transformer 架构已经成为自然语言处理、计算机视觉等领域的基础模型。然而,其核心组件——自注意力机制(Self-Attention)的时间和空间复杂度都是 $O(N^2)$,其中 $N$ 是序列长度。这种二次方复杂度严重限制了模型处理长序列的能力。 ...

January 26, 2026 · 5 min · 2388 words · Ringi Lee