Fundamentos teóricos de los grandes modelos de lenguaje

From Systems analysis wiki
Jump to navigation Jump to search

Los fundamentos teóricos de los grandes modelos de lenguaje (basados en la arquitectura Transformer) son el conjunto de principios matemáticos, estadísticos y de teoría de la información que sustentan el funcionamiento, entrenamiento y capacidades de los grandes modelos de lenguaje (LLM) modernos. Estos fundamentos explican cómo los modelos construidos sobre la arquitectura Transformer son capaces de comprender y generar lenguaje humano con un alto grado de coherencia.

Fundamentos arquitectónicos: la arquitectura Transformer

Los LLM modernos se basan casi en su totalidad en la arquitectura Transformer, presentada en 2017 en el artículo «Attention Is All You Need». Esta arquitectura abandonó las capas recurrentes (como en las RNN y LSTM) en favor de un mecanismo de atención (attention), lo que permitió procesar eficientemente secuencias largas y paralelizar los cálculos.

Mecanismo de autoatención (Self-Attention)

Es el núcleo de la arquitectura Transformer. El mecanismo de autoatención permite al modelo ponderar la importancia de cada palabra (token) en una secuencia en relación con todas las demás palabras de la misma secuencia. Para cada token, se crean tres vectores:

  • Query (Q, Consulta): un vector que representa la palabra actual.
  • Key (K, Clave): un vector con el que se comparan las consultas de otras palabras.
  • Value (V, Valor): un vector que contiene la información sobre la palabra que se transmitirá.

La puntuación de atención se calcula como un producto escalar escalado:

Attention(Q,K,V)=softmax(QKTdk)V

donde dk es la dimensionalidad de los vectores clave. Este mecanismo permite al modelo capturar dependencias contextuales complejas, independientemente de la distancia entre las palabras.

La atención de múltiples cabezales (Multi-Head Attention) es la ejecución en paralelo de varios de estos cálculos con diferentes matrices de proyección, lo que permite al modelo centrarse simultáneamente en diferentes aspectos de la sintaxis y la semántica.

Tipos de arquitecturas basadas en Transformer

Existen tres variantes principales para utilizar los componentes de Transformer:

  1. Codificador-decodificador (Encoder-Decoder): La arquitectura clásica para tareas de secuencia a secuencia (por ejemplo, traducción automática). El codificador procesa la secuencia de entrada y el decodificador genera la de salida. Ejemplos: T5, BART.
  2. Solo codificador (Encoder-Only): Modelos que utilizan únicamente la pila de codificadores. Son excelentes para tareas que requieren una comprensión profunda del contexto de toda la secuencia (clasificación de texto, reconocimiento de entidades nombradas). Ejemplo: BERT.
  3. Solo decodificador (Decoder-Only): Modelos que utilizan únicamente la pila de decodificadores. Funcionan de manera autorregresiva, prediciendo el siguiente token a partir de los anteriores. Este es el estándar para los modelos generativos. Ejemplos: GPT, LLaMA, Claude.

Codificación posicional

Dado que el mecanismo de autoatención no tiene en cuenta el orden de las palabras, se añade a la arquitectura la codificación posicional. A los embeddings de los tokens se les suman vectores que codifican su posición en la secuencia. En el modelo original se utilizaban funciones sinusoidales:

PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)

En los modelos modernos también se utilizan codificaciones posicionales aprendibles y rotacionales (Rotary Position Embeddings, RoPE).

Principios de entrenamiento: de la probabilidad a la optimización

El modelado de lenguaje como un problema probabilístico

La base de los LLM es la tarea de modelado de lenguaje: predecir la probabilidad de una secuencia de texto. Formalmente, para una secuencia X=(x1,x2,,xT), el modelo estima la probabilidad P(X). Usando la regla de la cadena de la probabilidad, esto se descompone en un producto de probabilidades condicionales:

P(X)=t=1TP(xt|x1,,xt1)

Así, el entrenamiento del modelo se reduce a predecir el siguiente token xt basándose en el contexto de los tokens anteriores.

Función de pérdida y teoría de la información

Para evaluar la calidad de las predicciones y entrenar el modelo, se utiliza la función de pérdida de entropía cruzada. Mide la divergencia entre la distribución de probabilidad predicha por el modelo (q) y la distribución verdadera (p), donde el token siguiente correcto tiene una probabilidad de 1 y los demás de 0.

H(p,q)=ip(i)logq(i)

Minimizar la entropía cruzada es equivalente a maximizar la verosimilitud de los datos de entrenamiento.

Una métrica de calidad relacionada es la perplejidad, que se define como la exponencial de la entropía cruzada: Perplexity=2H(p,q). Intuitivamente, la perplejidad indica el número promedio de opciones entre las que el modelo "elige" en cada paso. Cuanto menor es la perplejidad, más seguro y preciso es el modelo.

Optimización

El entrenamiento de un LLM es un proceso de minimización de la función de pérdida mediante el ajuste de miles de millones de parámetros del modelo. Para ello, se utilizan métodos basados en el descenso de gradiente. El más común es el optimizador Adam (Adaptive Moment Estimation) y sus variantes (como AdamW), que ajustan adaptativamente la tasa de aprendizaje para cada parámetro.

Paradigmas de entrenamiento

  1. Preentrenamiento (Pre-training): El modelo se entrena en enormes corpus de texto no etiquetados (Common Crawl, The Pile, C4) utilizando tareas autosupervisadas, como:
    • Modelado de lenguaje causal (CLM): Predicción del siguiente token (utilizado en GPT).
    • Modelado de lenguaje enmascarado (MLM): Reconstrucción de tokens enmascarados aleatoriamente en el texto (utilizado en BERT).
  2. Ajuste fino (Fine-tuning): Después del preentrenamiento, el modelo se adapta a tareas específicas en conjuntos de datos etiquetados más pequeños.
  3. Alineación (Alignment): Una etapa especial de ajuste fino destinada a alinear el comportamiento del modelo con las preferencias y valores humanos. El método clave es el RLHF (Aprendizaje por refuerzo a partir de retroalimentación humana), donde el modelo se reentrena utilizando una señal de recompensa de un modelo que predice las preferencias humanas.

Leyes de escalado y capacidades emergentes

Investigaciones empíricas han demostrado que el rendimiento de los LLM mejora de forma predecible con el aumento de tres factores: el tamaño del modelo (número de parámetros, N), el tamaño del conjunto de datos de entrenamiento (D) y la cantidad de computación (C). Esta dependencia se describe mediante leyes de potencias (scaling laws).

La ley propuesta en el trabajo de OpenAI (Kaplan et al., 2020) muestra que la función de pérdida L disminuye como una función de potencia de N, D y C. Un trabajo posterior de DeepMind (Hoffmann et al., 2022) refinó estas leyes (las leyes de Chinchilla), demostrando que para un entrenamiento óptimo es necesario aumentar de manera equilibrada tanto el tamaño del modelo como la cantidad de datos.

Una consecuencia importante del escalado es la aparición de capacidades emergentes: saltos cualitativos en el rendimiento donde el modelo comienza a resolver tareas para las que no fue explícitamente entrenado (por ejemplo, aritmética, razonamiento lógico, escritura de código). Estas capacidades suelen estar ausentes en modelos más pequeños y solo se manifiestan después de alcanzar un cierto umbral de escala.

Generación de texto: estrategias de decodificación

Una vez entrenado, el modelo genera texto prediciendo iterativamente el siguiente token. La selección del siguiente token a partir de la distribución de probabilidad proporcionada por el modelo se realiza mediante diversas estrategias de decodificación:

  • Búsqueda codiciosa (Greedy Search): Siempre se elige el token más probable. Es rápido, pero a menudo conduce a texto repetitivo y poco interesante.
  • Búsqueda por haz (Beam Search): En cada paso, se conservan las k secuencias más probables, lo que permite encontrar soluciones globales más óptimas.
  • Muestreo con temperatura: Las probabilidades de los tokens se ajustan con un parámetro de temperatura (T). Con T>1, la distribución se vuelve más uniforme (más creatividad), mientras que con T<1 se vuelve más concentrada (menos aleatoriedad).
  • Muestreo Top-k: En cada paso, la selección se limita a los k tokens más probables.
  • Muestreo Top-p (Nucleus): La selección se limita al conjunto mínimo de tokens cuya probabilidad acumulada supera un umbral p. Esto permite adaptar dinámicamente el tamaño del grupo de candidatos.

Problemas teóricos y limitaciones

  • Alucinaciones: La tendencia de los modelos a generar información objetivamente incorrecta pero que suena plausible. Esto se debe a que los modelos optimizan la probabilidad del texto, no su veracidad.
  • Sesgos (Bias): Los LLM heredan y amplifican los sesgos sociales, culturales y de otro tipo presentes en los datos de entrenamiento.
  • Interpretabilidad («caja negra»): Debido al enorme número de parámetros, es extremadamente difícil entender cómo toma decisiones el modelo, lo que complica la depuración y crea riesgos.
  • Complejidad computacional: El mecanismo de autoatención tiene una complejidad cuadrática con respecto a la longitud de la secuencia (O(n2)), lo que limita la longitud máxima del contexto que se puede procesar.

Bibliografía

  • Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
  • Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
  • Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
  • Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.