深度解析大语言模型 LLM 原理
说明:原文作者royceshao,发布于公众号腾讯技术工程,本文为 Ringi Lee 归纳整理。 ...
说明:原文作者royceshao,发布于公众号腾讯技术工程,本文为 Ringi Lee 归纳整理。 ...
引言 Transformer 架构已经成为自然语言处理、计算机视觉等领域的基础模型。然而,其核心组件——自注意力机制(Self-Attention)的时间和空间复杂度都是 $O(N^2)$,其中 $N$ 是序列长度。这种二次方复杂度严重限制了模型处理长序列的能力。 ...