Transformer

深度解析大语言模型 LLM 原理

说明：原文作者royceshao，发布于公众号腾讯技术工程，本文为 Ringi Lee 归纳整理。 ...

引言 Transformer 架构已经成为自然语言处理、计算机视觉等领域的基础模型。然而，其核心组件——自注意力机制（Self-Attention）的时间和空间复杂度都是 $O(N^2)$，其中 $N$ 是序列长度。这种二次方复杂度严重限制了模型处理长序列的能力。 ...