Theoretical foundations of large language models — LLM 的理论基础

大型语言模型（基于 Transformer 架构）的理论基础是一套数学、统计和信息论原理的集合，是现代大型语言模型 (LLM)功能、训练和能力的基础。这些基础解释了基于Transformer 架构构建的模型如何能够以高度连贯的方式理解和生成人类语言。

架构基础：Transformer 架构

现代 LLM 几乎完全基于 2017 年论文《Attention Is All You Need》中提出的Transformer架构。该架构摒弃了循环层（如 RNN 和 LSTM 中使用的），转而采用注意力（attention）机制，从而实现了对长序列的高效处理和并行计算。

Self-Attention mechanism - 自注意力机制

这是 Transformer 架构的核心。自注意力机制允许模型衡量序列中每个词（token）相对于同一序列中所有其他词的重要性。为每个 token 创建三个向量：

Query (Q, 查询): 代表当前词的向量。
Key (K, 键): 与其他词的查询进行比较的向量。
Value (V, 值): 包含将要传递的词信息的向量。

注意力得分的计算采用缩放点积（scaled dot-product）的方式：

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

其中 $d_{k}$ 是键向量的维度。该机制使模型能够捕捉复杂的上下文依赖关系，无论词与词之间的距离有多远。

多头注意力 (Multi-Head Attention)是并行执行多个具有不同投影矩阵的此类计算，使模型能够同时关注语法和语义的不同方面。

基于 Transformer 的架构类型

使用 Transformer 组件的主要架构有三种：

编码器-解码器 (Encoder-Decoder): 用于序列到序列转换任务（如机器翻译）的经典架构。编码器处理输入序列，解码器生成输出序列。示例：T5、BART。
仅编码器 (Encoder-Only): 仅使用编码器堆栈的模型。它们非常适合需要深入理解整个序列上下文的任务（文本分类、命名实体识别）。示例：BERT。
仅解码器 (Decoder-Only): 仅使用解码器堆栈的模型。它们以自回归方式工作，根据前面的 token 预测下一个 token。这是生成模型的标准架构。示例：GPT、LLaMA、Claude。

位置编码

由于自注意力机制不考虑词序，因此在架构中加入了位置编码。将编码词元在序列中位置的向量加到词元的嵌入（embedding）中。在原始模型中，使用了正弦函数：

PE (pos, 2 i) = \sin (pos / 1000 0^{2 i / d_{model}})

PE (pos, 2 i + 1) = \cos (pos / 1000 0^{2 i / d_{model}})

现代模型中也使用可学习的位置编码和旋转位置嵌入（Rotary Position Embeddings, RoPE）。

训练原理：从概率到优化

作为概率任务的语言建模

LLM 的核心是语言建模任务——预测文本序列的概率。形式上，对于序列 $X = (x_{1}, x_{2}, \dots, x_{T})$ ，模型评估其概率 $P (X)$ 。根据概率的链式法则，这可以分解为条件概率的乘积：

P (X) = \prod_{t = 1}^{T} P (x_{t} | x_{1}, \dots, x_{t - 1})

因此，模型训练就简化为基于先前的 token 上下文来预测下一个 token $x_{t}$ 。

损失函数与信息论

为了评估预测质量并训练模型，使用了交叉熵损失函数。它衡量模型预测的概率分布 ( $q$ ) 与真实分布 ( $p$ ) 之间的差异，其中正确的下一个 token 的概率为 1，其余为 0。

H (p, q) = - \sum_{i} p (i) \log q (i)

最小化交叉熵等同于最大化训练数据的似然。

一个相关的质量度量是困惑度 (perplexity)，定义为交叉熵的指数： $Perplexity = 2^{H (p, q)}$ 。直观地说，困惑度表示模型在每一步“选择”的平均选项数。困惑度越低，模型越自信、越准确。

优化

LLM 的训练是通过调整模型数十亿个参数来最小化损失函数的过程。为此，使用了基于梯度下降的方法。最常用的是 Adam (Adaptive Moment Estimation) 优化器及其变体（如 AdamW），它们能为每个参数自适应地调整学习率。

训练范式

预训练 (Pre-training): 模型在使用自监督任务的、海量的、未标记的文本语料库（如 Common Crawl、The Pile、C4）上进行训练，例如：
- 因果语言建模 (Causal Language Modeling, CLM): 预测下一个 token（用于 GPT）。
- 掩码语言建模 (Masked Language Modeling, MLM): 恢复文本中被随机掩盖的 token（用于 BERT）。
微调: 预训练后，模型在小规模的标记数据集上针对特定任务进行适配。
对齐 (Alignment): 一个特殊的微调阶段，旨在使模型的行为与人类的偏好和价值观保持一致。关键方法是 RLHF (Reinforcement Learning from Human Feedback)，其中模型使用一个预测人类偏好的奖励模型所提供的奖励信号进行微调。

缩放定律与涌现能力

实证研究表明，LLM 的性能会随着三个因素的增加而可预测地提高：模型大小（参数数量 $N$ ）、训练数据集大小 ( $D$ ) 和计算量 ( $C$ )。这种依赖关系由幂律 (scaling laws)描述。

OpenAI 的一篇论文 (Kaplan et al., 2020) 中提出的定律表明，损失函数 $L$ 会随着 $N$ 、 $D$ 和 $C$ 的幂函数而减小。DeepMind 后来的一项工作 (Hoffmann et al., 2022) 对这些定律进行了完善（Chinchilla 定律），指出为了实现最优训练，需要均衡地增加模型大小和数据量。

缩放的一个重要结果是涌现能力的出现——当模型开始解决那些未被明确训练过的任务（如算术、逻辑推理、编写代码）时，性能会出现质的飞跃。这些能力通常在较小规模的模型中不存在，只有在达到一定的规模阈值后才会显现。

文本生成：解码策略

训练完成后，模型通过迭代预测下一个 token 来生成文本。从模型给出的概率分布中选择下一个 token 的过程由多种解码策略完成：

贪心搜索 (Greedy Search): 始终选择最可能的 token。速度快，但常导致生成重复乏味的文本。
束搜索 (Beam Search): 在每一步保留 $k$ 个最可能的序列，从而能够找到更优的全局解。
温度采样 (Sampling with temperature): 使用温度 ( $T$ ) 参数调整 token 的概率。当 $T > 1$ 时，分布更均匀（更具创造性）；当 $T < 1$ 时，分布更尖锐（随机性更小）。
Top-k 采样: 在每一步将采样范围限制在 $k$ 个最可能的 token 内。
Top-p (Nucleus) 采样: 将采样范围限制在总概率超过阈值 $p$ 的最小 token 集合内。这允许动态调整候选池的大小。

理论问题与局限性

幻觉 (Hallucinations): 模型倾向于生成听起来合理但事实不符的信息。这是因为模型优化的是文本的概率，而非其真实性。
偏见 (Bias): LLM 继承并放大了训练数据中存在的社会、文化及其他偏见。
可解释性（“黑箱”问题）: 由于参数数量巨大，极难理解模型究竟是如何做出决策的，这给调试带来困难并产生风险。
计算复杂性: 自注意力机制的计算复杂度与序列长度呈二次方关系 ( $O (n^{2})$ )，这限制了可处理上下文的最大长度。

参见

大型语言模型
BERT
GPT

参考文献

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.

Theoretical foundations of large language models — LLM 的理论基础

Contents

架构基础：Transformer 架构

Self-Attention mechanism - 自注意力机制

基于 Transformer 的架构类型

位置编码

训练原理：从概率到优化

作为概率任务的语言建模

损失函数与信息论

优化

训练范式

缩放定律与涌现能力

文本生成：解码策略

理论问题与局限性

参见

参考文献

Navigation menu

Theoretical foundations of large language models — LLM 的理论基础

架构基础：Transformer 架构

Self-Attention mechanism - 自注意力机制

基于 Transformer 的架构类型

位置编码

训练原理：从概率到优化

作为概率任务的语言建模

损失函数与信息论

优化

训练范式

缩放定律与涌现能力

文本生成：解码策略

理论问题与局限性

参见

参考文献

Navigation menu

Search