GPT (OpenAI) (ES)

From Systems analysis wiki
Jump to navigation Jump to search

GPT (Generative Pre-trained Transformer, en español: Transformador Generativo Preentrenado) es una familia de modelos grandes de lenguaje (LLM, por sus siglas en inglés) desarrollada por OpenAI. Los modelos GPT se basan en la arquitectura de transformadores e implementan el paradigma de preentrenamiento generativo: en la primera etapa, el modelo se entrena con extensos corpus de texto sin etiquetado explícito, y posteriormente puede ser ajustado (fine-tuned) para tareas específicas. Para las generaciones más recientes (a partir de GPT‑5), OpenAI también utiliza el término sistema unificado (unified system), ya que el producto combina un modo de respuesta rápida, un modo de razonamiento profundo y un enrutador[1].

Denominación

La abreviatura GPT significa Generative Pre-trained Transformer (Transformador Generativo Preentrenado).

  • Generativo (Generative): indica que el modelo es capaz de crear (generar) contenido nuevo, como texto.
  • Preentrenado (Pre-trained): indica que el modelo pasa por una extensa etapa de entrenamiento inicial con un gran conjunto de datos (por ejemplo, textos de internet). Tras el preentrenamiento, el modelo a menudo puede ser adicionalmente «ajustado» (fine-tuned) para tareas más específicas.
  • Transformador (Transformer): se refiere a una arquitectura específica de red neuronal que es una innovación clave subyacente a GPT y a muchos otros modelos modernos de IA.

La característica principal de GPT es que el entrenamiento se realiza de forma autorregresiva: el modelo predice el siguiente token basándose en el contexto precedente. Es decir, el modelo se entrena para maximizar la probabilidad del siguiente token dada una secuencia de tokens anteriores. Durante el entrenamiento se minimiza el error de predicción del siguiente elemento, lo que permite generar textos con alta coherencia y consistencia.

Proceso de generación de texto en GPT

El modelo GPT genera texto de forma secuencial, token por token, según el siguiente esquema iterativo:

  • Recibe como entrada una secuencia de texto inicial (prompt, texto semilla).
  • Calcula una distribución de probabilidad sobre todos los tokens del vocabulario para el siguiente elemento del texto.
  • Selecciona el siguiente token:
    • ya sea por la probabilidad más alta (selección voraz),
    • o mediante muestreo estocástico (sampling),
    • o utilizando estrategias de filtrado especiales (top-k, top-p).
  • Añade el token seleccionado a la secuencia actual.
  • La secuencia actualizada se alimenta nuevamente al modelo para predecir el siguiente token.

Arquitectura del transformador: procesamiento de texto

El procesamiento de datos dentro del transformador para predecir el siguiente token comprende varias etapas principales:

  • Tokenización (Tokenización). El texto de entrada se divide en tokens — unidades pequeñas de texto que pueden ser palabras, subpalabras o signos de puntuación. En GPT-3, por ejemplo, el vocabulario incluye aproximadamente 50.257 tokens.
  • Embeddings de tokens (Embeddings). Cada token se convierte en un vector de longitud fija mediante una matriz de embeddings (W_E). Los vectores codifican el significado de los tokens: tokens semánticamente similares se ubican próximos en el espacio de alta dimensión. En GPT-3, la dimensión de los embeddings es 12.288.
  • Procesamiento en las capas del transformador.
    • Bloques de atención (Attention Blocks): Cada token interactúa con los demás tokens de la secuencia. El mecanismo de atención permite al modelo considerar el contexto e interpretar correctamente el significado de las palabras.
    • Capas feedforward (Feed-Forward Layers): Después de la atención, cada token se procesa individualmente a través de una red neuronal de dos capas con activación no lineal.
  • Transformación inversa y Softmax. Después de todas las capas, el vector procesado se transforma de vuelta al espacio de tokens mediante una matriz (W_U), que frecuentemente es una versión transpuesta de W_E. El vector de logits resultante se normaliza mediante la función Softmax para obtener una distribución de probabilidad sobre todos los tokens.
  • Selección del siguiente token (Sampling). El siguiente token se selecciona en función de la distribución de probabilidad. El parámetro de temperatura (temperature) controla la aleatoriedad de la selección: con temperatura 0, se selecciona el token más probable; con temperaturas más altas, aumenta la probabilidad de seleccionar opciones menos probables, lo que favorece una mayor diversidad en el texto.

Modelos GPT

  • GPT-1 (2018): el primer modelo de la familia; un transformador decoder-only de 12 capas; entrenamiento en dos etapas (preentrenamiento + ajuste fino en tareas de PLN).
  • GPT-2 (2019): 1.500 millones de parámetros; entrenado con el corpus WebText; el primer modelo capaz de generar textos largos y coherentes; mejora en la calidad de generación zero-shot. Anunciado el 14 de febrero de 2019; la versión completa (1.500M) fue publicada el 5 de noviembre de 2019 por razones de seguridad.
  • GPT-3 (2020): 175.000 millones de parámetros; entrenamiento a gran escala con una combinación de Common Crawl, Books y Wikipedia; fuerte desarrollo de las capacidades few-shot y zero-shot.
  • GPT-3.5 (2022): una versión intermedia entre GPT-3 y GPT-4; mejor seguimiento de instrucciones mediante aprendizaje por refuerzo con retroalimentación humana (RLHF) en las versiones text-davinci-003 y gpt-3.5-turbo; ventana de contexto de hasta 4.096 tokens en versiones tempranas y hasta 16.385 tokens en las posteriores (gpt-3.5-turbo-16k y gpt-3.5-turbo actualizado).
  • GPT-4 (2023): un modelo multimodal con entrada de texto e imágenes (el soporte de imágenes se desplegó posteriormente, tras el lanzamiento solo-texto); ventana de contexto de 8.192 tokens en la versión base y 32.768 tokens en la variante GPT-4-32k; mejoras significativas en precisión, robustez y razonamiento.
  • GPT-4 Turbo (2023): una versión optimizada de GPT-4; ventana de contexto aumentada a 128.000 tokens; menor latencia y coste.
  • GPT-4o (2024): un modelo multimodal de nueva generación (texto, imagen, audio) con una arquitectura de red neuronal unificada; velocidad y precisión de respuesta muy altas; ventana de contexto de 128.000 tokens.
  • GPT-4.5 (2025): una versión preliminar de investigación (research preview); la system card de OpenAI indica que el modelo «builds on GPT-4o»[2][3]; mejor comprensión de las consultas del usuario, reducción de la tasa de errores; ventana de contexto de 128.000 tokens. El modelo de API gpt-4.5-preview fue declarado deprecated el 14 de abril de 2025 y desactivado el 14 de julio de 2025[4].
  • GPT-4.1 (2025): una versión mejorada de la familia GPT-4 con una ventana de contexto de hasta 1 millón de tokens; acepta texto e imágenes como entrada, produce texto como salida[5]. Lanzada simultáneamente en tres variantes: GPT-4.1, GPT-4.1 mini, GPT-4.1 nano.
  • GPT-5 (2025): un sistema unificado con modos de respuesta rápida y razonamiento profundo; ventana de contexto de aproximadamente 400.000 tokens; reducción notable de alucinaciones en tareas factuales.
  • GPT-5.1 (2025): razonamiento adaptativo, mejoras en programación y retención de contexto largo.
  • GPT-5.2 (2025): enfoque en el trabajo profesional; modo Pro para tareas de frontera; se lanzó el modelo agéntico GPT-5.2-Codex basado en GPT-5.2.
  • GPT-5.3-Codex (2026): un modelo agéntico de programación que combina capacidades de codificación y razonamiento; un 25 % más rápido que sus predecesores.
  • GPT-5.3 Instant (2026): una actualización del modelo conversacional más utilizado en ChatGPT; lanzado el 3 de marzo de 2026. Mejoras en precisión factual, calidad de búsqueda web, fluidez conversacional y reducción de rechazos excesivos y advertencias innecesarias. Disponible en la API como gpt-5.3-chat-latest[6].
  • GPT-5.4 (2026): el modelo de frontera de OpenAI para trabajo profesional, presentado el 5 de marzo de 2026; el primer modelo de propósito general de OpenAI con capacidades nativas de uso de computadora (computer use). En la API, gpt-5.4 se recomienda como modelo predeterminado para una amplia gama de tareas de propósito general y programación[7][8].

GPT-1

El primer modelo, GPT-1, fue presentado por OpenAI en 2018 en el artículo «Improving Language Understanding by Generative Pre-Training». El modelo era un transformador decoder-only de 12 capas[9] construido sobre la arquitectura de transformadores. El entrenamiento de GPT-1 se realizó en dos etapas: una etapa de preentrenamiento generativo no supervisado (pre-training), seguida de una etapa de ajuste fino supervisado (fine-tuning).

Durante la etapa de preentrenamiento, el modelo se entrenó con el corpus BookCorpus, que comprende más de 7.000 libros no publicados de diversos géneros. Una característica distintiva de este corpus era la presencia de pasajes de texto largos y continuos, lo cual fue de importancia crítica para desarrollar la capacidad del modelo de procesar dependencias textuales complejas y de largo alcance.

Durante la etapa de ajuste fino, el modelo se adaptó para resolver tareas especializadas de procesamiento del lenguaje natural, incluyendo:

  • Respuesta a preguntas (Question Answering, QA) — generación de una respuesta correcta basada en un contexto textual dado;
  • Inferencia de lenguaje natural (Natural Language Inference, NLI) — determinación de la relación lógica entre dos textos: implicación, contradicción o neutralidad;
  • Similitud textual semántica (Semantic Textual Similarity) — medición del grado de proximidad semántica entre dos secuencias de texto.

Gracias a este enfoque, GPT-1 demostró una superioridad significativa sobre los modelos anteriores en varios benchmarks estándar para tareas de comprensión de texto.

El desarrollo de GPT-1 demostró varios logros y descubrimientos clave en el procesamiento del lenguaje natural (PLN):

  • Eficacia del preentrenamiento generativo. Se confirmó empíricamente que el preentrenamiento con grandes corpus de texto no etiquetado permite al modelo adquirir representaciones lingüísticas universales adecuadas para su aplicación posterior en diversas tareas sin necesidad de cambios arquitectónicos fundamentales.
  • Versatilidad de la arquitectura de transformadores. El uso de un transformador decodificador multicapa permitió al modelo procesar exitosamente dependencias de largo alcance en el texto, algo que anteriormente resultaba difícil para los modelos basados en redes neuronales recurrentes.
  • Reducción de la dependencia de datos etiquetados. El trabajo confirmó que el preentrenamiento a gran escala con datos no etiquetados puede reducir significativamente la cantidad de datos etiquetados necesarios para lograr alta calidad en las tareas objetivo.
  • Base para el desarrollo posterior. Los resultados de GPT-1 sentaron las bases conceptuales y técnicas para las versiones posteriores de la familia GPT (GPT-2, GPT-3 y sucesivas).

GPT-2

El modelo GPT-2 fue anunciado por OpenAI el 14 de febrero de 2019. Superó significativamente a su predecesor en tamaño: la versión completa del modelo contenía aproximadamente 1.500 millones de parámetros. Por razones de seguridad, OpenAI publicó inicialmente solo variantes más pequeñas del modelo; la versión completa (1.500M de parámetros) fue lanzada el 5 de noviembre de 2019. A diferencia de GPT-1, que se entrenó con el corpus BookCorpus (~5 GB), GPT-2 fue entrenado con un corpus WebText especialmente compilado de aproximadamente 40 GB, que comprendía datos textuales de fuentes de internet de alta calidad. El aumento tanto del tamaño del modelo como del volumen de datos de entrenamiento permitió a GPT-2 mejorar significativamente la calidad de generación de texto: demostró la capacidad de crear artículos sustanciales, relatos e incluso pasajes coherentes de ficción.

GPT-2 empleaba una arquitectura de transformador autorregresivo decoder-only similar a GPT-1, sin cambios significativos. El modelo consistía en 48 capas de autoatención, tenía un tamaño de estado oculto de 1.600 e incluía aproximadamente 1.500 millones de parámetros. El número de cabezas de atención era 25 (manteniendo un tamaño de cabeza de 64, heredado de GPT-1: 1.600 ÷ 64 = 25). El entrenamiento se realizó con la tarea de predicción del siguiente token basándose en el contexto precedente, utilizando atención enmascarada.

Una de las principales distinciones de GPT-2 fue que el modelo fue el primero en demostrar alta eficacia en el aprendizaje zero-shot — la capacidad de resolver nuevas tareas sin pasar por un ajuste fino explícito con ejemplos para dichas tareas. El modelo se entrenó con un gran corpus de textos generales y no recibió entrenamiento especializado con datos de tareas específicas. La evaluación se realizó en régimen zero-shot, en el que el modelo ejecutaba tareas basándose exclusivamente en el conocimiento adquirido durante el preentrenamiento. En varias tareas de modelado de lenguaje, GPT-2 alcanzó una calidad comparable o superior a los resultados de modelos entrenados específicamente con conjuntos de datos especializados (por ejemplo, Wikipedia, textos de noticias, libros).

GPT-3

El modelo GPT-3 fue presentado por OpenAI en junio de 2020 (el artículo en arXiv apareció el 28 de mayo de 2020; el acceso beta a la API se abrió el 11 de junio de 2020). Representó el siguiente paso en el desarrollo de los transformadores generativos después de GPT-2 y se distinguió por el escalado de la arquitectura hasta 175.000 millones de parámetros, convirtiéndolo en el modelo de lenguaje más grande en ese momento.

La arquitectura de GPT-3 permaneció fundamentalmente igual — un transformador autorregresivo decoder-only multicapa sin cambios radicales. Las principales mejoras de rendimiento se lograron mediante el aumento del número de capas, la anchura de las capas ocultas y la escala del entrenamiento. El modelo se entrenó con una combinación de varios grandes corpus de texto, incluyendo Common Crawl, WebText2, Books1, Books2 y Wikipedia. El volumen total de datos fue de aproximadamente 570 GB o más (570 GB correspondían a la porción filtrada de Common Crawl, que dominaba la mezcla de entrenamiento).

Una de las principales características de GPT-3 fue su capacidad de aprendizaje few-shot y aprendizaje zero-shot: el modelo podía realizar una amplia gama de tareas de procesamiento del lenguaje natural, incluyendo traducción, resumen, respuesta a preguntas, redacción de ensayos e incluso programación, basándose en solo unos pocos ejemplos en el prompt de texto o sin ejemplo alguno.

GPT-3.5

El modelo GPT-3.5 fue presentado por OpenAI a finales de 2022 como parte del desarrollo evolutivo de la familia GPT. Se construyó sobre la arquitectura de transformador autorregresivo decoder-only escalado utilizada en GPT-3, con mejoras en la calidad de generación de texto, el procesamiento del contexto y la capacidad de seguir instrucciones complejas. El número exacto de parámetros de GPT-3.5 no se reveló oficialmente; las versiones davinci son presumiblemente comparables en tamaño a GPT-3 (175.000M), pero los parámetros exactos de la versión gpt-3.5-turbo son desconocidos.

El entrenamiento de GPT-3.5 incluyó el uso ampliado de métodos de aprendizaje por refuerzo con retroalimentación humana (Reinforcement Learning from Human Feedback, RLHF) en las versiones text-davinci-003 y gpt-3.5-turbo. La versión anterior text-davinci-002 se entrenó mediante ajuste fino supervisado (SFT) en lugar de RLHF. El modelo se entrenó con corpus de texto ampliados que incluían Common Crawl, Books, WebText y otras fuentes de alta calidad. La ventana de contexto en las versiones populares tempranas (gpt-3.5-turbo) era de 4.096 tokens; posteriormente OpenAI lanzó versiones actualizadas con un contexto de hasta 16.385 tokens[10].

En la práctica, GPT-3.5 se adaptó para resolver una amplia gama de tareas de procesamiento del lenguaje natural, tales como:

  • Generación de texto coherente y lógico;
  • Respuesta a preguntas (QA) y comprensión del contexto;
  • Seguimiento de instrucciones de múltiples pasos;
  • Mantenimiento mejorado del contexto a largo plazo en diálogos.

Se lanzaron varias versiones clave basadas en GPT-3.5 para diferentes propósitos:

  • text-davinci-002 — el primer modelo disponible públicamente basado en GPT-3.5, optimizado para la generación y el seguimiento de instrucciones (entrenado mediante SFT).
  • text-davinci-003 — una versión mejorada con mayor capacidad de razonamiento y generación de textos complejos (entrenada mediante RLHF).
  • gpt-3.5-turbo — la versión más eficiente y económica de GPT-3.5, utilizada en el servicio ChatGPT desde finales de 2022.

GPT-4

El modelo GPT-4 fue presentado por OpenAI el 14 de marzo de 2023 en el "GPT-4 Technical Report". Representó la siguiente etapa en el desarrollo de la familia de modelos de lenguaje, ofreciendo mejoras significativas en la comprensión de texto, la generación de respuestas significativas y creativas, y el procesamiento de datos multimodales. El número exacto de parámetros y los detalles arquitectónicos del modelo no se revelaron oficialmente — el informe técnico de GPT-4 establece explícitamente que la información sobre la arquitectura, el tamaño del modelo, el hardware, los costes computacionales de entrenamiento y la construcción del dataset no se publica[11]. Según estimaciones externas no oficiales, GPT-4 podría haber utilizado un enfoque de Mezcla de Expertos (Mixture of Experts, MoE) con una escala total del orden de ~1,8 billones de parámetros; sin embargo, OpenAI no ha confirmado ni desmentido oficialmente estas cifras[12].

GPT-4 es un modelo multimodal capaz de aceptar tanto texto como imágenes como entrada. Cabe señalar que en el momento del lanzamiento inicial en marzo de 2023, solo estaba disponible la modalidad de texto; el soporte de entrada de imágenes se desplegó posteriormente. La ventana de contexto era de 8.192 tokens en la versión base y 32.768 tokens en la variante GPT-4-32k. El modelo utilizaba métodos de RLHF (aprendizaje por refuerzo con retroalimentación humana).

El entrenamiento de GPT-4 se realizó con una combinación de corpus textuales y multimodales a gran escala. Los detalles específicos de los datos de entrenamiento, el hardware y la metodología no se revelan en las publicaciones oficiales de OpenAI.

El entrenamiento se realizó en varias etapas:

  • preentrenamiento no supervisado a gran escala con textos e imágenes,
  • ajuste fino supervisado (supervised fine-tuning) en tareas especializadas,
  • una etapa final de aprendizaje por refuerzo con retroalimentación humana (RLHF) para mejorar la fiabilidad, la seguridad y la calidad de interpretación de instrucciones.

Se lanzaron varias versiones principales basadas en GPT-4:

  • GPT-4 (marzo de 2023): la versión base con soporte de entrada de texto (el soporte de imágenes se añadió posteriormente); ventana de contexto de 8.192 tokens; también se lanzó una variante GPT-4-32k con un contexto de 32.768 tokens.
  • GPT-4 Turbo (noviembre de 2023): una modificación optimizada de GPT-4 con una ventana de contexto aumentada a 128.000 tokens[13]; costes computacionales reducidos y generación acelerada; soporte para modos de llamada a funciones (function calling) y salida JSON.
  • GPT-4o (mayo de 2024): una versión multimodal de nueva generación; en el anuncio de lanzamiento se posicionó como un modelo omni capaz de trabajar con texto, imágenes y audio en tiempo real (a diferencia de GPT-4 Turbo, donde las diferentes modalidades eran atendidas por módulos separados); sin embargo, el modelo base de API gpt-4o se describe como entrada de texto+imagen, salida de texto; ventana de contexto de 128.000 tokens.
  • GPT-4.5 (febrero de 2025): una versión preliminar de investigación (research preview); la system card de OpenAI establece explícitamente que el modelo «builds on GPT-4o»[3]; generación mejorada de textos complejos, mayor precisión en el seguimiento de instrucciones y tasa de alucinaciones reducida; ventana de contexto de 128.000 tokens. Se describió como «el último modelo de OpenAI sin chain-of-thought» (nombre en clave — Orion)[14]. El modelo de API gpt-4.5-preview fue declarado deprecated el 14 de abril de 2025 y desactivado el 14 de julio de 2025[4].
  • GPT-4.1 (abril de 2025): una versión estable con una ampliación radical del contexto a 1.047.576 tokens; acepta texto e imágenes como entrada, produce texto como salida[15]; lanzada simultáneamente en tres variantes (GPT-4.1, GPT-4.1 mini, GPT-4.1 nano); inicialmente disponible solo a través de la API, posteriormente desplegada en ChatGPT.

GPT-5

El 7 de agosto de 2025, OpenAI presentó GPT‑5 como su entonces modelo «más inteligente, rápido y útil», con un modo integrado de razonamiento profundo (thinking) y enfoque en escenarios prácticos — escritura, programación, trabajo relacionado con la salud y comprensión multimodal. GPT‑5 se convirtió gradualmente en el modelo predeterminado para la mayoría de los usuarios autenticados de ChatGPT, desplazando a los modelos previamente utilizados de la familia GPT‑4/4o y la serie o.[16]

GPT‑5 se implementa como un sistema unificado con dos modos de operación principales: respuestas rápidas y económicas para consultas cotidianas (denominado gpt‑5 main) y razonamiento profundo para tareas complejas (denominado gpt‑5 thinking). El modo se selecciona automáticamente mediante un enrutador que tiene en cuenta el tipo de diálogo, la complejidad de la consulta, la necesidad de herramientas y señales explícitas del usuario (por ejemplo, «think step by step» o «analyze in depth»). En ChatGPT, los usuarios tienen acceso a los modos Auto / Instant / Thinking / Pro; las variantes mini y nano son principalmente modelos de API, y mini en el producto para consumidores puede usarse como respaldo tras agotar los límites de uso[17].

A través de la API se ofrecen varios tamaños y configuraciones de GPT‑5; en la documentación de OpenAI, las variantes principales se enumeran como gpt‑5, gpt‑5‑mini y gpt‑5‑nano (todas soportan texto y datos visuales). La ventana de contexto total máxima para la familia GPT‑5 en la API es de aproximadamente 400.000 tokens (con presupuestos separados para entrada y razonamiento/salida), aunque los límites específicos pueden variar según la variante del modelo y el producto elegido[18].

En varios benchmarks de búsqueda web y factuales, GPT‑5 demuestra una reducción notable en la frecuencia de alucinaciones y errores en comparación con GPT‑4o y los modelos «thinking» anteriores de OpenAI. En el anuncio oficial, OpenAI informó reducciones de errores de aproximadamente un 45 % en comparación con GPT-4o y aproximadamente un 80 % en comparación con o3 en modo thinking — estos resultados se obtuvieron en condiciones específicas: con búsqueda web habilitada en prompts anonimizados representativos del tráfico de producción de ChatGPT[19].

GPT-5.1

El modelo GPT-5.1 fue presentado por OpenAI el 12 de noviembre de 2025 como la primera iteración significativa después de GPT-5 base, orientada a mejorar la interacción cotidiana, la calidad conversacional y la adaptabilidad. El modelo mantiene el sistema unificado con un modo rápido (GPT-5.1 Instant) y razonamiento profundo (GPT-5.1 Thinking), pero introduce el razonamiento adaptativo (adaptive reasoning): el modelo determina dinámicamente la cantidad de cómputo según la complejidad de la consulta, haciéndolo notablemente más rápido en tareas simples sin sacrificar calidad en las complejas.

El entrenamiento de GPT-5.1 se construyó sobre GPT-5 con una etapa adicional de post-entrenamiento que incluyó RLHF ampliado, enfoque en el tono natural y reducción de la «frialdad» de las respuestas. La ventana de contexto en la API es de 400.000 tokens, con una salida máxima de 128.000 tokens[20]. Se introdujo el almacenamiento extendido de prompts en caché de hasta 24 horas, lo que reduce significativamente el coste y la latencia en diálogos de múltiples turnos[21].

Características principales:

  • GPT-5.1 Instant — el modo principal para tareas cotidianas; el primero en utilizar razonamiento adaptativo para determinar cuándo vale la pena «pensar» antes de responder a una consulta más compleja[21].
  • GPT-5.1 Thinking — asignación adaptativa del tiempo de razonamiento; según OpenAI, en una distribución representativa de tareas de ChatGPT, el modelo es aproximadamente el doble de rápido en las tareas más simples y aproximadamente el doble de lento en las más difíciles en comparación con GPT-5 Thinking[21].
  • Multimodalidad mejorada (texto + visión).
  • Mejoras en escenarios de programación y agénticos, así como en la eficiencia en tareas simples gracias al razonamiento adaptativo y al almacenamiento extendido de prompts en caché[22].

GPT-5.2

El modelo GPT-5.2 fue lanzado el 11 de diciembre de 2025 como «el modelo más capaz de la serie para el trabajo profesional y el aprendizaje». Es una evolución de GPT-5.1 con énfasis en el valor económico: generación de tablas, presentaciones, código complejo y tareas de extremo a extremo. Mantiene la arquitectura unificada con los modos Instant, Thinking y un nuevo modo Pro (para tareas que requieren el máximo de cómputo y tiempo de razonamiento).

El entrenamiento incluyó un corpus actualizado con knowledge cutoff de agosto de 2025, instruction-tuning mejorado y RLHF para reducir errores en escenarios de múltiples pasos. Ventana de contexto — 400K tokens (128K máximo de salida). El modelo se volvió más fiable en escenarios profesionales, con mejor precisión factual y uso de herramientas.

El 18 de diciembre de 2025 se lanzó el especializado GPT-5.2-Codex basado en GPT-5.2 — un modelo agéntico de programación con compactación de contexto mejorada (context compaction), soporte de Windows, ciberseguridad reforzada y razonamiento de largo horizonte (tareas de hasta varias horas).

A fecha de 13 de febrero de 2026, tras la retirada de varios modelos antiguos, GPT-5.2 se convirtió temporalmente en el modelo predeterminado en ChatGPT. Sin embargo, a principios de marzo de 2026, este rol fue asumido por GPT‑5.3 Instant y GPT‑5.4[17].

GPT-5.3-Codex

GPT-5.3-Codex fue presentado el 5 de febrero de 2026 como «el modelo agéntico de programación más potente hasta la fecha». Combina las capacidades de codificación de frontera de GPT-5.2-Codex con el razonamiento profesional de GPT-5.2 en un único modelo que es un 25 % más rápido que sus predecesores.

El modelo es capaz de realizar prácticamente cualquier tarea de desarrollador: flujos de trabajo de larga duración, investigación, uso de herramientas, ejecución de código y dirección interactiva (interactive steering — el usuario puede intervenir en tiempo real sin perder el contexto). Las primeras versiones del modelo fueron utilizadas por el equipo de OpenAI para depurar su propio entrenamiento, despliegue y evaluaciones.

Resultados clave en el momento del anuncio del 5 de febrero de 2026: Terminal-Bench ~77,3 %, OSWorld-Verified ~64,7 %, SWE-Bench Pro ~56,8 %. En el posterior lanzamiento de GPT-5.4 del 5 de marzo de 2026, OpenAI informó de un resultado actualizado de OSWorld-Verified del 74,0 % para GPT-5.3-Codex al utilizar un nuevo parámetro de API que preserva la resolución original de la imagen[23][7].

El 12 de febrero de 2026, OpenAI también lanzó GPT-5.3-Codex-Spark — una versión compacta ultrarrápida en asociación con Cerebras, optimizada para uso en tiempo real: más de 1.000 tokens por segundo, solo-texto, contexto de 128K. En el lanzamiento, se trataba de un despliegue para usuarios de ChatGPT Pro en Codex y un pequeño número de socios de diseño de API, no un modelo de API ampliamente disponible[24].

GPT-5.4

El 5 de marzo de 2026, OpenAI presentó GPT‑5.4 como su nuevo modelo de frontera para trabajo profesional. GPT‑5.4 combina las fortalezas de los últimos lanzamientos de OpenAI en razonamiento, programación y flujos de trabajo agénticos y fue el primero en la línea de productos principal en recibir capacidades integradas de uso de computadora (computer use). Simultáneamente, OpenAI lanzó GPT‑5.4 Pro — una variante para las tareas más complejas, que utiliza más cómputo y razonamiento más prolongado[7].

En la API, el modelo gpt-5.4 se describe como el predeterminado recomendado para una amplia gama de tareas de propósito general y programación; la ventana de contexto es de 1.050.000 tokens, con una salida máxima de 128.000 tokens. El modelo acepta texto e imágenes como entrada y produce texto como salida[8][25].

En ChatGPT, el modo Auto a fecha de 7 de marzo de 2026 cambia automáticamente entre GPT‑5.3 Instant y GPT‑5.4 Thinking, mientras que GPT‑5.4 Pro está disponible como un modo independiente de alta capacidad. Para los usuarios autenticados de ChatGPT, el modelo predeterminado es GPT‑5.3[17].

Evolución de los modelos GPT

Evolución de los modelos GPT
Generación Año de lanzamiento Número de parámetros Tamaño del corpus de entrenamiento Características principales
GPT-1 2018 ≈117–124M[26] ≈5 GB (BooksCorpus) Preentrenamiento generativo en grandes corpus; entrenamiento en dos etapas (pre-training + fine-tuning)
GPT-2 2019 1.500M ≈40 GB (WebText) Generación de texto sustancialmente mejorada; demostración de fuerte comportamiento zero-shot; publicación por etapas del modelo inicialmente
GPT-3 2020 175.000M ≈570 GB (Common Crawl, WebText2, et al.) Aprendizaje en contexto a gran escala; fuertes capacidades few-shot y zero-shot sin ajuste fino
GPT-3.5 2022 No revelado (versiones davinci presumiblemente ~175.000M) >570 GB + corpus adicionales e instruction tuning Estabilidad mejorada y seguimiento de instrucciones; base de las primeras versiones de ChatGPT
GPT-4 2023 No revelado[27] No revelado Multimodalidad (texto + imágenes); precisión mejorada y resistencia a alucinaciones; contexto de 8k/32k tokens
GPT-4 Turbo 2023 No revelado Basado en el entrenamiento de GPT-4 (detalles no revelados) Aumento del contexto a 128.000 tokens; optimización de velocidad de generación y coste
GPT-4o 2024 No revelado Datos multimodales (texto, imágenes, audio) Procesamiento multimodal neuronal unificado; alta velocidad de respuesta
GPT-4.5 2025 No revelado Corpus textuales y multimodales ampliados Research preview basada en GPT-4o; reducción de errores; deprecated para 2026
GPT-4.1 2025 No revelado Corpus actualizados Contexto de hasta 1.047.576 tokens; texto + imágenes como entrada, texto como salida
GPT-5 2025 (agosto) No revelado Corpus multimodales a gran escala Sistema unificado con modos de respuesta rápida y razonamiento; contexto de ~400K tokens; reducción de alucinaciones
GPT-5.1 2025 (noviembre) No revelado Corpus ampliados de GPT-5 + RLHF Razonamiento adaptativo; prompt caching de 24h; mejoras en programación
GPT-5.2 2025 (diciembre) No revelado Knowledge cutoff agosto 2025 Modo Pro; trabajo profesional de conocimiento; GPT-5.2-Codex (programación agéntica)
GPT-5.3-Codex 2026 (febrero) No revelado Actualizados + datos de auto-mejora 25 % más rápido; agente de espectro completo; dirección interactiva
GPT-5.3-Codex-Spark 2026 (febrero) No revelado Compacto >1000 t/s en Cerebras; programación en tiempo real; contexto de 128K
GPT-5.3 Instant 2026 (marzo) No revelado No revelado Actualización del modelo conversacional más utilizado de ChatGPT; mejoras en factualidad, búsqueda web y fluidez conversacional
GPT-5.4 2026 (marzo) No revelado No revelado Nuevo modelo de frontera para trabajo profesional; uso nativo de computadora; modelo predeterminado en API para propósito general y la mayoría de tareas de programación
GPT-5.4 Pro 2026 (marzo) No revelado No revelado Variante de GPT-5.4 con más cómputo para las tareas más complejas

Parámetros arquitectónicos de los modelos GPT

Parámetros arquitectónicos de los modelos GPT
Modelo Año de lanzamiento Número de parámetros Número de capas Tamaño del estado oculto Número de cabezas de atención Ventana de contexto Tamaño del corpus de entrenamiento
GPT-1 2018 ≈117–124M 12 768 12 512 tokens ≈5 GB (BooksCorpus)
GPT-2 2019 1.500M 48 1.600 25 1.024 tokens ≈40 GB (WebText)
GPT-3 2020 175.000M 96 12.288 96 2.048 tokens ≈570 GB (Common Crawl + WebText2 + otros)
GPT-3.5 2022 No revelado (versiones davinci presumiblemente ~175.000M) (estimado cercano a GPT-3) (estimado cercano a GPT-3) (no revelado) Hasta 4.096 tokens (tempranas); hasta 16.385 tokens (posteriores) Common Crawl ampliado + datasets adicionales e instruction tuning
GPT-4 2023 No revelado (no revelado) (no revelado) (no revelado) 8.192 tokens (base); 32.768 (GPT-4-32k) No revelado
GPT-4 Turbo 2023 (no revelado) (no revelado) (no revelado) (no revelado) Hasta 128.000 tokens Versión optimizada de GPT-4 (detalles del corpus no revelados)
GPT-4o 2024 (no revelado) (no revelado) (no revelado) (no revelado) Hasta 128.000 tokens Datos multimodales: texto, imágenes, audio
GPT-4.5 2025 (no revelado) (no revelado) (no revelado) (no revelado) Hasta 128.000 tokens Corpus textuales y multimodales actualizados
GPT-4.1 2025 (no revelado) (no revelado) (no revelado) (no revelado) Hasta 1.047.576 tokens Multimodalidad; entrenamiento escalado con énfasis en contextos largos
GPT-5 2025 (no revelado) (no revelado) (no revelado) (no revelado) Hasta ≈400.000 tokens (contexto total) Corpus multimodales a gran escala (detalles no revelados)
GPT-5.4 2026 (no revelado) (no revelado) (no revelado) (no revelado) 1.050.000 tokens; 128.000 máx. salida No revelado

Enlaces externos

Notas

  1. OpenAI. «Introducing GPT-5» (7 de agosto de 2025). https://openai.com/index/introducing-gpt-5/
  2. OpenAI. «Introducing GPT-4.5» (2025). https://openai.com/index/introducing-gpt-4-5/
  3. 3.0 3.1 OpenAI. GPT-4.5 System Card (27 de febrero de 2025). https://cdn.openai.com/gpt-4-5-system-card-2272025.pdf
  4. 4.0 4.1 OpenAI Developers. Deprecations. https://developers.openai.com/api/docs/deprecations/
  5. OpenAI. «Introducing GPT-4.1 in the API» (2025).
  6. OpenAI. «GPT-5.3 Instant: Smoother, more useful everyday conversations» (3 de marzo de 2026). https://openai.com/index/gpt-5-3-instant/
  7. 7.0 7.1 7.2 OpenAI. «Introducing GPT-5.4» (5 de marzo de 2026). https://openai.com/index/introducing-gpt-5-4/
  8. 8.0 8.1 OpenAI Developers. «Using GPT-5.4». https://developers.openai.com/api/docs/guides/latest-model/
  9. Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
  10. OpenAI señaló que el GPT-3.5 Turbo actualizado «now comes by default with 16k context».
  11. OpenAI. «GPT-4 Technical Report» (2023). arXiv:2303.08774.
  12. Estas estimaciones se basan en datos publicados por SemiAnalysis y corroborados por varias fuentes independientes.
  13. Anunciada en el OpenAI DevDay el 6 de noviembre de 2023; disponibilidad general desde el 9 de abril de 2024.
  14. El nombre en clave Orion y la caracterización de «último modelo sin chain-of-thought» aparecieron en las comunicaciones del roadmap de Sam Altman y en varias publicaciones de medios (Reuters, The Verge), pero no en la publicación de lanzamiento de GPT-4.5 en sí.
  15. OpenAI. «Introducing GPT-4.1 in the API» (2025).
  16. OpenAI. «Introducing GPT-5» (7 de agosto de 2025).
  17. 17.0 17.1 17.2 OpenAI Help Center. «GPT-5.3 and GPT-5.4 in ChatGPT». https://help.openai.com/en/articles/11909943-gpt-53-and-54-in-chatgpt
  18. OpenAI API documentation. Models: GPT-5.
  19. OpenAI. «Introducing GPT-5» (2025). Condiciones de prueba: «with web search enabled on anonymized prompts representative of ChatGPT production traffic».
  20. OpenAI Developers. Models: GPT-5.1. https://developers.openai.com/api/docs/models/gpt-5.1
  21. 21.0 21.1 21.2 OpenAI. «GPT-5.1: A smarter, more conversational ChatGPT» (12 de noviembre de 2025). https://openai.com/index/gpt-5-1/
  22. OpenAI. «GPT-5.1 for developers» (2025). https://openai.com/index/gpt-5-1-for-developers/
  23. OpenAI. «Introducing GPT-5.3-Codex» (5 de febrero de 2026). https://openai.com/index/introducing-gpt-5-3-codex/
  24. OpenAI. «Introducing GPT-5.3-Codex-Spark» (12 de febrero de 2026). https://openai.com/index/introducing-gpt-5-3-codex-spark/
  25. OpenAI Developers. Models: GPT-5.4. https://developers.openai.com/api/docs/models/gpt-5.4
  26. El número exacto de parámetros de GPT-1 varía según las fuentes; la publicación original no indica el número explícitamente. La cifra de ≈117M es ampliamente citada, mientras que ≈124M aparece en algunos materiales posteriores.
  27. Según estimaciones externas no oficiales (SemiAnalysis et al.), posiblemente arquitectura MoE con una escala total de ~1,8 B de parámetros; OpenAI no ha confirmado estas cifras.

Bibliografía

  • Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
  • Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
  • Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
  • OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.