CUDA | Ringi's Log

引言 Transformer 架构已经成为自然语言处理、计算机视觉等领域的基础模型。然而，其核心组件——自注意力机制（Self-Attention）的时间和空间复杂度都是 $O(N^2)$，其中 $N$ 是序列长度。这种二次方复杂度严重限制了模型处理长序列的能力。 ...