深度解析大语言模型 LLM 原理

说明:原文作者royceshao,发布于公众号腾讯技术工程,本文为 Ringi Lee 归纳整理。 ...

May 08, 2026 · 44 min · 21857 words · Ringi Lee

FlashAttention:具有 IO 感知的快速且内存高效的精确注意力研究

引言 Transformer 架构已经成为自然语言处理、计算机视觉等领域的基础模型。然而,其核心组件——自注意力机制(Self-Attention)的时间和空间复杂度都是 $O(N^2)$,其中 $N$ 是序列长度。这种二次方复杂度严重限制了模型处理长序列的能力。 ...

January 26, 2026 · 5 min · 2388 words · Ringi Lee