Temperature (LLM) — 温度 (LLM)

From Systems analysis wiki
Jump to navigation Jump to search

温度(英语:Temperature)在大语言模型(LLM)的语境中,是一个超参数,用于控制文本生成过程中的随机性与“创造性”水平。它在每个解码步骤中调节下一个词元(token)的概率分布的“尖锐度”或“平滑度”。通过调整温度,可以控制生成文本在可预测性(连贯性)和多样性(创造性)之间的平衡。

理论定义与数学原理

在数学上,温度(T)作为除数被引入到 softmax 函数中,该函数将模型的原始输出(logits,ui)转换为概率分布(Pi)。其公式如下:

Pi(T)=eui/Tjeuj/T

其中:

  • Pi(T) — 在温度 T 下第 i 个词元的最终概率。
  • ui — 模型为第 i 个词元输出的 logit(未归一化的得分)。
  • T — 温度参数。

温度值的影响

  • T=1(默认值):概率分布保持不变。这是标准的 softmax,反映了模型的原始预测。
  • T<1(低温,例如 0.20.7):概率分布变得更加尖锐陡峭。最可能词元的概率会增加,而不太可能词元的概率会减少。这使得生成过程更具确定性和可预测性。模型更倾向于选择常见、高频的词语,从而提高了文本的连贯性和语法正确性,但降低了其多样性。
  • T>1(高温,例如 1.01.5):概率分布变得更加平滑均匀。不同词元之间的概率差异被拉平,这增加了选择不太可能(也更“出人意料”)词元的机会。这使得文本更具创造性、多样性和不可预测性,但也增加了生成不连贯或语法错误短语的风险。

极端情况

  • T0当温度趋近于零时,softmax 函数会变成 argmax 函数。模型将始终选择具有最高 logit 值的词元。这种模式等同于贪婪解码(greedy decoding),是完全确定性的。它常常导致生成重复和模板化的文本。
  • T当温度趋近于无穷大时,概率分布变得均匀。词汇表中的所有词元都变得等可能,模型会生成随机的“意识流”,完全失去连贯性。

实践应用与建议

正确选择温度至关重要,具体取决于任务类型。

  • 创意性任务(如写故事、诗歌、营销口号):
    • 建议使用较高的温度(T0.71.2
    • 这会激励模型产生更意想不到的创意,使用更多样化的词汇,并避免套话。
  • 需要精确性和事实性的任务(如问答、摘要、代码生成):
    • 建议使用较低的温度(T0.00.4
    • 这能最大限度地减少“幻觉”,并促使模型坚持最可能、通常也更准确和相关的文本续写。在 OpenAI API 中,对于要求高精度的任务,通常建议设置 T=0
  • 对话系统和聊天机器人:
    • 建议使用中等温度(T0.50.8
    • 这有助于在连贯性和多样性之间取得平衡:回答既切题又不会过于枯燥单调。例如,ChatGPT 在日常对话中使用的温度约为 0.7。

与 Top-k 和 Top-p 的比较

Top-kTop-p(核采样) 等截断方法不同,温度的工作方式如下:

  • 温度重新分配词汇表中所有词元的概率,但不会截断任何一个。即使在非常低的温度下,低概率词元仍然有微小但非零的被选中机会。
  • Top-kTop-p 则引入了硬性截断,完全排除了未进入采样核心的词元。这是防止生成完全不相关词语的更可靠方法。

在实践中,这些参数经常结合使用。例如,可以设置一个中等温度(如 T=0.8)来控制整体风格,并添加 Top-p(如 p=0.9)来截断概率分布的“尾部”,以避免严重错误。

参考文献

  • Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
  • Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
  • Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
  • Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
  • Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
  • O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
  • Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
  • Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
  • Ravfogel, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
  • Sen, J. et al. (2025). Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs. arXiv:2506.05387.

另见

  • 大语言模型