Temperature (LLM) — 温度 (LLM)
Jump to navigation
Jump to search
温度(英语:Temperature)在大语言模型(LLM)的语境中,是一个超参数,用于控制文本生成过程中的随机性与“创造性”水平。它在每个解码步骤中调节下一个词元(token)的概率分布的“尖锐度”或“平滑度”。通过调整温度,可以控制生成文本在可预测性(连贯性)和多样性(创造性)之间的平衡。
理论定义与数学原理
在数学上,温度()作为除数被引入到 softmax 函数中,该函数将模型的原始输出(logits,)转换为概率分布()。其公式如下:
其中:
- — 在温度 下第 个词元的最终概率。
- — 模型为第 个词元输出的 logit(未归一化的得分)。
- — 温度参数。
温度值的影响
- (默认值):概率分布保持不变。这是标准的 softmax,反映了模型的原始预测。
- (低温,例如 – ):概率分布变得更加尖锐或陡峭。最可能词元的概率会增加,而不太可能词元的概率会减少。这使得生成过程更具确定性和可预测性。模型更倾向于选择常见、高频的词语,从而提高了文本的连贯性和语法正确性,但降低了其多样性。
- (高温,例如 – ):概率分布变得更加平滑或均匀。不同词元之间的概率差异被拉平,这增加了选择不太可能(也更“出人意料”)词元的机会。这使得文本更具创造性、多样性和不可预测性,但也增加了生成不连贯或语法错误短语的风险。
极端情况
- :当温度趋近于零时,softmax 函数会变成 argmax 函数。模型将始终选择具有最高 logit 值的词元。这种模式等同于贪婪解码(greedy decoding),是完全确定性的。它常常导致生成重复和模板化的文本。
- :当温度趋近于无穷大时,概率分布变得均匀。词汇表中的所有词元都变得等可能,模型会生成随机的“意识流”,完全失去连贯性。
实践应用与建议
正确选择温度至关重要,具体取决于任务类型。
- 创意性任务(如写故事、诗歌、营销口号):
- 建议使用较高的温度()。
- 这会激励模型产生更意想不到的创意,使用更多样化的词汇,并避免套话。
- 需要精确性和事实性的任务(如问答、摘要、代码生成):
- 建议使用较低的温度()。
- 这能最大限度地减少“幻觉”,并促使模型坚持最可能、通常也更准确和相关的文本续写。在 OpenAI API 中,对于要求高精度的任务,通常建议设置 。
- 对话系统和聊天机器人:
- 建议使用中等温度()。
- 这有助于在连贯性和多样性之间取得平衡:回答既切题又不会过于枯燥单调。例如,ChatGPT 在日常对话中使用的温度约为 0.7。
与 Top-k 和 Top-p 的比较
与 Top-k 和 Top-p(核采样) 等截断方法不同,温度的工作方式如下:
- 温度会重新分配词汇表中所有词元的概率,但不会截断任何一个。即使在非常低的温度下,低概率词元仍然有微小但非零的被选中机会。
- Top-k 和 Top-p 则引入了硬性截断,完全排除了未进入采样核心的词元。这是防止生成完全不相关词语的更可靠方法。
在实践中,这些参数经常结合使用。例如,可以设置一个中等温度(如 )来控制整体风格,并添加 Top-p(如 )来截断概率分布的“尾部”,以避免严重错误。
参考文献
- Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
- Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
- Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
- Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
- Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
- O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
- Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
- Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
- Ravfogel, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
- Sen, J. et al. (2025). Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs. arXiv:2506.05387.
另见
- 大语言模型