Temperatura (LLM) (ES)

From Systems analysis wiki
Jump to navigation Jump to search

Temperatura (del inglés Temperature) en el contexto de los grandes modelos de lenguaje (LLM) es un hiperparámetro que controla el nivel de aleatoriedad y «creatividad» en la generación de texto. Regula la «nitidez» o, por el contrario, la «suavidad» de la distribución de probabilidad del siguiente token en cada paso de la decodificación. Al manipular la temperatura, es posible controlar el equilibrio entre la previsibilidad (coherencia) y la diversidad (creatividad) del texto generado.

Definición teórica y matemáticas

Matemáticamente, la temperatura (T) se introduce como un divisor en la función softmax, que convierte los logits de salida del modelo (ui) en una distribución de probabilidad (Pi). La fórmula es la siguiente:

Pi(T)=eui/Tjeuj/T

Donde:

  • Pi(T) — la probabilidad final del i-ésimo token a una temperatura T.
  • ui — el logit (puntuación no normalizada) para el i-ésimo token, producido por el modelo.
  • T — el parámetro de temperatura.

Influencia del valor de la temperatura

  • T=1 (valor estándar): La distribución de probabilidad no cambia. Es la función softmax estándar, que refleja las predicciones originales del modelo.
  • T<1 (temperatura baja, por ejemplo, 0.20.7): La distribución se vuelve más pronunciada o puntiaguda. Las probabilidades de los tokens más probables aumentan, mientras que las de los menos probables disminuyen. Esto hace que la generación sea más determinista y predecible. El modelo elige con más frecuencia palabras obvias y de alta frecuencia, lo que aumenta la coherencia y la corrección gramatical del texto, pero reduce su diversidad.
  • T>1 (temperatura alta, por ejemplo, 1.01.5): La distribución se vuelve más suave o uniforme. La diferencia entre las probabilidades de los tokens se reduce, lo que aumenta la posibilidad de elegir tokens menos probables (y más «inesperados»). Esto hace que el texto sea más creativo, diverso e impredecible, pero aumenta el riesgo de generar frases incoherentes o gramaticalmente incorrectas.

Casos límite

  • T0: En el límite, cuando la temperatura tiende a cero, la función softmax se convierte en un argmax. El modelo siempre elegirá el token con el logit más alto. Este modo es equivalente a la decodificación voraz (greedy decoding) y es completamente determinista. A menudo conduce a un texto repetitivo y formulista.
  • T: Cuando la temperatura tiende a infinito, la distribución de probabilidad se vuelve uniforme. Todos los tokens del vocabulario se vuelven equiprobables, y el modelo genera un «flujo de conciencia» aleatorio, perdiendo por completo la coherencia.

Aplicación práctica y recomendaciones

La elección correcta de la temperatura es de vital importancia y depende de la tarea específica.

  • Para tareas creativas (escribir historias, poemas, eslóganes de marketing):
    • Se recomienda una temperatura más alta (T0.71.2).
    • Esto estimula al modelo a generar ideas más inesperadas y creativas, usar un vocabulario diverso y evitar frases formulistas.
  • Para tareas que requieren precisión y factualidad (responder preguntas, resumir, generar código):
    • Se recomienda una temperatura baja (T0.00.4).
    • Esto minimiza las «alucinaciones» y obliga al modelo a adherirse a las continuaciones de texto más probables y, por lo general, más precisas y relevantes. En la API de OpenAI, para tareas que requieren alta precisión, a menudo se recomienda establecer T=0.
  • Para sistemas de diálogo y chatbots:
    • Se recomienda una temperatura moderada (T0.50.8).
    • Esto permite encontrar un equilibrio: las respuestas se mantienen coherentes y pertinentes, pero al mismo tiempo no se vuelven demasiado secas y monótonas. Por ejemplo, en ChatGPT se utiliza una temperatura de alrededor de 0.7 para conversaciones habituales.

Comparación con Top-k y Top-p

La temperatura, a diferencia de los métodos de truncamiento como Top-k y Top-p (nucleus sampling), funciona de manera diferente:

  • La temperatura redistribuye las probabilidades entre todos los tokens del vocabulario, pero no descarta ninguno de ellos. Incluso con una temperatura muy baja, los tokens poco probables conservan una probabilidad minúscula pero no nula de ser seleccionados.
  • Top-k y Top-p introducen un truncamiento estricto, excluyendo por completo los tokens que no caen dentro del núcleo de muestreo. Esta es una forma más fiable de evitar la generación de palabras completamente irrelevantes.

En la práctica, estos parámetros se suelen utilizar de forma conjunta. Por ejemplo, se puede establecer una temperatura moderada (p. ej., T=0.8) para el estilo general y añadir Top-p (p. ej., p=0.9) para cortar la «cola» de la distribución y evitar errores graves.

Bibliografía

  • Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
  • Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
  • Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
  • Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
  • Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
  • O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
  • Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
  • Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
  • Ravfogel, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
  • Sen, J. et al. (2025). Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs. arXiv:2506.05387.

Véase también

  • Grandes modelos de lenguaje