Decoder-only models (architecture) (Modelos de solo decodificador)
Los modelos de solo decodificador (en inglés, Decoder-Only Models) son la clase dominante de arquitecturas de modelos de lenguaje grandes (LLM), basadas exclusivamente en la parte del decodificador de la arquitectura Transformer. Estos modelos se especializan en tareas de generación de texto y son la base de la mayoría de los chatbots y asistentes de IA modernos.
La línea insignia que popularizó este enfoque es la serie de modelos GPT de OpenAI.
Concepto y arquitectura
La idea principal de los modelos de solo decodificador es la generación autorregresiva de secuencias. Esto significa que el modelo predice el siguiente token basándose en todos los tokens anteriores que se han generado. El prompt de entrada (la solicitud del usuario) y el texto ya generado se consideran una única secuencia que el modelo continúa.
Arquitectónicamente, el modelo consiste en una pila de capas de decodificador idénticas. Cada capa, a diferencia de un codificador o un decodificador completo de la arquitectura Transformer original, contiene solo dos subcapas principales:
- Autoatención multicabeza enmascarada (Masked Multi-Head Self-Attention): Este es el mecanismo clave que asegura la propiedad autorregresiva. Durante el procesamiento de la secuencia, una máscara causal (causal mask) especial impide que cada token «vea» los tokens posteriores. De esta manera, la predicción para la posición solo depende de los tokens en las posiciones .
- Red neuronal de avance (Feed-Forward Network): Aplica una transformación no lineal a la representación de cada token.
En los modelos de solo decodificador, no existe el mecanismo de atención cruzada (cross-attention), ya que no hay un codificador al que se le pueda «prestar atención».
Tareas de preentrenamiento
Los modelos de solo decodificador se entrenan en una única, pero muy potente, tarea autosupervisada:
Modelado de lenguaje causal (Causal Language Modeling, CLM)
- Principio de funcionamiento: El modelo aprende a predecir el siguiente token en una secuencia. En cada paso del entrenamiento, recibe un fragmento de texto como entrada y debe generar una distribución de probabilidad para el siguiente token.
- Objetivo: Maximizar la probabilidad del siguiente token correcto en volúmenes masivos de datos de texto. Esta tarea, aparentemente simple, obliga al modelo a aprender gramática, sintaxis, hechos sobre el mundo y patrones complejos del lenguaje.
Aplicaciones
Gracias a su naturaleza autorregresiva, los modelos de solo decodificador son ideales para cualquier tarea que requiera la generación de texto:
- Generación de texto de formato libre: Escritura de artículos, poemas, guiones, etc.
- Sistemas de diálogo y chatbots: Respuestas a las preguntas de los usuarios en un estilo conversacional.
- Resumen de textos (Summarization): Creación de resúmenes de textos largos.
- Traducción automática: Aunque a menudo se utilizan modelos codificador-decodificador para esto, los modelos de solo decodificador también pueden manejar la traducción si la tarea se formula en el prompt (por ejemplo, «Traduce del inglés al español: ...»).
- Escritura de código: Generación de código a partir de una descripción textual.
- Aprendizaje en contexto (In-context learning): Gracias a su escala, los grandes modelos de solo decodificador demuestran la capacidad de resolver nuevas tareas con solo unos pocos ejemplos (few-shot) o incluso sin ellos (zero-shot) directamente en el prompt, sin necesidad de ajuste fino (fine-tuning).
Modelos principales y su evolución
- Serie GPT (2018-presente): Pioneros y popularizadores del enfoque. GPT-1 demostró la eficacia del preentrenamiento, GPT-2 exhibió el poder del escalado y GPT-3 reveló las capacidades de few-shot. ChatGPT y GPT-4 convirtieron esta arquitectura en el estándar para los asistentes de IA.
- LLaMA (2023-presente): Serie de modelos abiertos de Meta que democratizó el acceso a LLMs potentes y estimuló una ola de innovación en la comunidad.
- Claude (2023-presente): Familia de modelos de Anthropic, enfocada en la seguridad y la controlabilidad mediante la IA Constitucional (Constitutional AI).
- PaLM y Gemini (2022-presente): Modelos insignia de Google. Gemini también es un modelo de solo decodificador nativamente multimodal.
Comparación con otras arquitecturas
| Arquitectura | Tarea principal | Dirección del contexto | Modelos típicos |
|---|---|---|---|
| Solo decodificador | Generación de texto | Unidireccional (de izquierda a derecha) | GPT, LLaMA, Claude, Gemini |
| Solo codificador | Comprensión de texto | Bidireccional | BERT, RoBERTa |
| Codificador-decodificador | Transformación de secuencia a secuencia | Bidireccional (codificador) + Unidireccional (decodificador) | T5, BART, Transformer original |
Véase también
- GPT