Temperature (LLM) — 温度 (LLM)

温度（英语：Temperature）在大语言模型（LLM）的语境中，是一个超参数，用于控制文本生成过程中的随机性与“创造性”水平。它在每个解码步骤中调节下一个词元（token）的概率分布的“尖锐度”或“平滑度”。通过调整温度，可以控制生成文本在可预测性（连贯性）和多样性（创造性）之间的平衡。

理论定义与数学原理

在数学上，温度（ $T$ ）作为除数被引入到 softmax 函数中，该函数将模型的原始输出（logits， $u_{i}$ ）转换为概率分布（ $P_{i}$ ）。其公式如下：

P_{i}^{(T)} = \frac{e^{u_{i} / T}}{\sum_{j} e^{u_{j} / T}}

其中：

$T = 1$ （默认值）：概率分布保持不变。这是标准的 softmax，反映了模型的原始预测。
$T < 1$ （低温，例如 $0.2$ – $0.7$ ）：概率分布变得更加尖锐或陡峭。最可能词元的概率会增加，而不太可能词元的概率会减少。这使得生成过程更具确定性和可预测性。模型更倾向于选择常见、高频的词语，从而提高了文本的连贯性和语法正确性，但降低了其多样性。
$T > 1$ （高温，例如 $1.0$ – $1.5$ ）：概率分布变得更加平滑或均匀。不同词元之间的概率差异被拉平，这增加了选择不太可能（也更“出人意料”）词元的机会。这使得文本更具创造性、多样性和不可预测性，但也增加了生成不连贯或语法错误短语的风险。

$T \to 0$ ：当温度趋近于零时，softmax 函数会变成 argmax 函数。模型将始终选择具有最高 logit 值的词元。这种模式等同于贪婪解码（greedy decoding），是完全确定性的。它常常导致生成重复和模板化的文本。
$T \to \infty$ ：当温度趋近于无穷大时，概率分布变得均匀。词汇表中的所有词元都变得等可能，模型会生成随机的“意识流”，完全失去连贯性。

正确选择温度至关重要，具体取决于任务类型。

创意性任务（如写故事、诗歌、营销口号）：
- 建议使用较高的温度（ $T \approx 0.7 - 1.2$ ）。
- 这会激励模型产生更意想不到的创意，使用更多样化的词汇，并避免套话。

需要精确性和事实性的任务（如问答、摘要、代码生成）：
- 建议使用较低的温度（ $T \approx 0.0 - 0.4$ ）。
- 这能最大限度地减少“幻觉”，并促使模型坚持最可能、通常也更准确和相关的文本续写。在 OpenAI API 中，对于要求高精度的任务，通常建议设置 $T = 0$ 。

对话系统和聊天机器人：
- 建议使用中等温度（ $T \approx 0.5 - 0.8$ ）。
- 这有助于在连贯性和多样性之间取得平衡：回答既切题又不会过于枯燥单调。例如，ChatGPT 在日常对话中使用的温度约为 0.7。

与 Top-k 和 Top-p（核采样） 等截断方法不同，温度的工作方式如下：

在实践中，这些参数经常结合使用。例如，可以设置一个中等温度（如 $T = 0.8$ ）来控制整体风格，并添加 Top-p（如 $p = 0.9$ ）来截断概率分布的“尾部”，以避免严重错误。

Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
Ravfogel, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
Sen, J. et al. (2025). Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs. arXiv:2506.05387.