GPT

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

GPT (Generative Pre-trained Transformer) — это семейство больших языковых моделей (LLM), разработанное компанией OpenAI. Модели GPT строятся на архитектуре трансформеров и реализуют парадигму генеративного предобучения: на первом этапе модель обучается на обширных корпусах текстов без явной разметки, а затем может дообучаться на конкретных задачах. Для поздних поколений (начиная с GPT‑5) OpenAI также использует формулировку единая система (unified system), поскольку продукт объединяет быстрый режим ответа, режим углублённого рассуждения (reasoning) и маршрутизатор[1].

Наименование

Аббревиатура GPT расшифровывается как Generative Pre-trained Transformer (Генеративный Предварительно обученный Трансформер).

  • Генеративный (Generative): означает, что модель способна создавать (генерировать) новый контент, например, текст.
  • Предварительно обученный (Pre-trained): указывает на то, что модель проходит через обширный этап начального обучения на большом массиве данных (например, текстах из интернета). После предварительного обучения модель часто может быть дополнительно «дообучена» (fine-tuned) для выполнения более специфических задач.
  • Трансформер (Transformer): это название конкретной архитектуры нейронной сети, которая является ключевым нововведением, лежащим в основе GPT и многих других современных ИИ-моделей.

Основная особенность GPT заключается в том, что обучение происходит в авторегрессионной форме — модель предсказывает следующий токен на основе предыдущего контекста. То есть модель обучается максимизировать вероятность следующего токена, зная последовательность предыдущих токенов. При обучении минимизируется ошибка предсказания следующего элемента, что позволяет формировать тексты, обладающие высокой когерентностью и связностью.

Процесс генерации текста в GPT

Модель GPT генерирует текст последовательно, токен за токеном, по следующей итеративной схеме:

  • Принимает на вход начальную текстовую последовательность (prompt, seed text).
  • Вычисляет вероятностное распределение по всем токенам словаря для следующего элемента текста.
  • Выбирает следующий токен:
    • либо по наивысшей вероятности (жадный выбор),
    • либо методом стохастического сэмплирования (sampling),
    • либо с использованием специальных фильтрующих стратегий (top-k, top-p).
  • Добавляет выбранный токен к текущей последовательности.
  • Обновлённая последовательность снова подаётся на вход модели для предсказания следующего токена.

Архитектура трансформера: обработка текста

Процесс обработки данных внутри трансформера для предсказания следующего токена включает несколько основных этапов:

  • Токенизация (Tokenization). Входной текст разбивается на токены — небольшие единицы текста, которые могут быть словами, частями слов или знаками препинания. В модели GPT-3, например, словарь включает около 50 257 токенов.
  • Эмбеддинг токенов (Embeddings). Каждый токен преобразуется в вектор фиксированной длины с помощью матрицы эмбеддингов (W_E). Векторы кодируют значение токенов: семантически близкие токены располагаются рядом в многомерном пространстве. В модели GPT-3 размерность эмбеддингов составляет 12 288.
  • Обработка в слоях трансформера.
    • Блоки внимания (Attention Blocks): Каждый токен взаимодействует с другими токенами последовательности. Механизм внимания позволяет учитывать контекст и правильно интерпретировать значения слов.
    • Полносвязные слои (Feed-Forward Layers): После внимания каждый токен обрабатывается отдельно через двухслойную нейронную сеть с нелинейной активацией.
  • Обратное преобразование и Softmax. После всех слоёв обработанный вектор преобразуется обратно в пространство токенов с помощью матрицы (W_U), которая часто является транспонированной версией W_E. Результирующий вектор логитов нормируется с помощью функции Softmax для получения вероятностного распределения по всем токенам.
  • Выбор следующего токена (Sampling). Следующий токен выбирается на основе распределения вероятностей. Параметр температуры (temperature) управляет случайностью выбора: при температуре 0 выбирается самый вероятный токен, при более высоких температурах увеличивается вероятность выбора менее вероятных вариантов, что способствует большей разнообразности текста.

Модели GPT

  • GPT-1 (2018): первая модель семейства; 12-слойный decoder-only transformer; обучение в два этапа (предобучение + дообучение на задачах NLP).
  • GPT-2 (2019): 1,5 млрд параметров; обучение на корпусе WebText; впервые способна генерировать длинные связные тексты; повышение качества zero-shot генерации. Анонсирована 14 февраля 2019 года, полная версия (1,5 млрд) опубликована 5 ноября 2019 года из соображений безопасности.
  • GPT-3 (2020): 175 млрд параметров; масштабное обучение на совокупности Common Crawl, Books, Wikipedia; сильное развитие few-shot и zero-shot способностей.
  • GPT-3.5 (2022): промежуточная версия между GPT-3 и GPT-4; улучшенное следование инструкциям благодаря обучению с обратной связью человека (RLHF) в версиях text-davinci-003 и gpt-3.5-turbo; контекстное окно до 4 096 токенов в ранних версиях и до 16 385 токенов в более поздних (gpt-3.5-turbo-16k и обновлённом gpt-3.5-turbo).
  • GPT-4 (2023): мультимодальная модель с текстовым и графическим вводом (поддержка изображений была развёрнута позднее, после текстового запуска); контекстное окно 8 192 токена в базовой версии и 32 768 токенов в варианте GPT-4-32k; значительное повышение точности, устойчивости и логики рассуждений.
  • GPT-4 Turbo (2023): оптимизированная версия GPT-4; увеличенное контекстное окно до 128 000 токенов; более низкие задержки и стоимость работы.
  • GPT-4o (2024): мультимодальная модель нового поколения (текст, изображение, аудио) с единой нейросетевой архитектурой; очень высокая скорость и точность откликов; контекстное окно 128 000 токенов.
  • GPT-4.5 (2025): исследовательский превью (research preview); в system card OpenAI указывает, что модель «builds on GPT-4o»[2][3]; улучшенное понимание пользовательских запросов, снижение количества ошибок; контекстное окно 128 000 токенов. В API модель gpt-4.5-preview была объявлена deprecated 14 апреля 2025 года и отключена 14 июля 2025 года[4].
  • GPT-4.1 (2025): улучшенная версия семейства GPT-4 с контекстным окном до 1 млн токенов; принимает текст и изображения на вход, выдаёт текст[5]. Выпущена одновременно в трёх вариантах: GPT-4.1, GPT-4.1 mini, GPT-4.1 nano.
  • GPT-5 (2025): единая система с режимами быстрого ответа и углублённого рассуждения; контекстное окно около 400 000 токенов; заметное снижение галлюцинаций на фактологических задачах.
  • GPT-5.1 (2025): адаптивное reasoning, улучшения в coding и long-context retention.
  • GPT-5.2 (2025): акцент на профессиональную работу; режим Pro для frontier-задач; на базе GPT-5.2 выпущена агентная GPT-5.2-Codex.
  • GPT-5.3-Codex (2026): агентная coding-модель, объединяющая coding-способности и reasoning; на 25 % быстрее предшественников.
  • GPT-5.3 Instant (2026): обновление самой используемой разговорной модели ChatGPT; выпущена 3 марта 2026 года. Улучшены фактическая точность, качество веб-поиска, плавность диалога и снижено число избыточных отказов и чрезмерных оговорок. В API доступна как gpt-5.3-chat-latest[6].
  • GPT-5.4 (2026): frontier-модель OpenAI для профессиональной работы, представленная 5 марта 2026 года; первая general-purpose модель OpenAI с native computer-use capabilities. В API gpt-5.4 рекомендована как модель по умолчанию для широкого спектра general-purpose и coding-задач[7][8].

GPT-1

Первая модель, GPT-1, была представлена компанией OpenAI в 2018 году в работе "Improving Language Understanding by Generative Pre-Training". Модель представляла собой 12-слойный decoder-only transformer[9] и строилась на базе архитектуры трансформеров. Обучение GPT-1 проходило в два этапа: этап неконтролируемого генеративного предварительного обучения (pre-training), за которым следовал этап контролируемой тонкой настройки (fine-tuning).

На стадии предварительного обучения модель обучалась на корпусе BookCorpus, включающем более 7 000 неопубликованных книг различных жанров. Особенностью этого корпуса являлось наличие длинных непрерывных отрывков текста, что было критически важно для формирования у модели способности обрабатывать сложные и протяжённые текстовые зависимости.

На этапе дообучения модель адаптировалась к решению специализированных задач обработки естественного языка, включая:

  • Ответы на вопросы (Question Answering, QA) — формирование корректного ответа на основании заданного текстового контекста;
  • Распознавание текстовой импликации (Natural Language Inference, NLI) — определение логической взаимосвязи между двумя текстами: импликации, противоречия или нейтральности;
  • Оценку семантического сходства (Semantic Textual Similarity) — измерение степени смысловой близости между двумя текстовыми последовательностями.

Благодаря такому подходу, GPT-1 продемонстрировала значительное превосходство над предыдущими моделями на ряде стандартных бенчмарков для задач понимания текста.

Разработка GPT-1 продемонстрировала ряд ключевых достижений и открытий в области обработки естественного языка (NLP):

  • Эффективность генеративного предварительного обучения. Было эмпирически подтверждено, что предварительное обучение на больших корпусах неразмеченного текста позволяет модели приобретать универсальные языковые представления, пригодные для последующего применения в различных прикладных задачах без необходимости фундаментальных архитектурных изменений.
  • Универсальность архитектуры трансформеров. Использование многослойного декодерного трансформера позволило модели успешно обрабатывать долгосрочные зависимости в тексте, что ранее было затруднительно для моделей на основе рекуррентных нейронных сетей.
  • Снижение зависимости от разметки данных. Работа подтвердила, что крупномасштабное предварительное обучение на неразмеченных данных может значительно сократить объём размеченных данных, необходимый для достижения высокого качества на целевых задачах.
  • Фундамент для последующего развития. Результаты GPT-1 заложили концептуальные и технические основы для последующих версий моделей семейства GPT (GPT-2, GPT-3 и далее).

GPT-2

Модель GPT-2 была анонсирована компанией OpenAI 14 февраля 2019 года. Она значительно превосходила своего предшественника по размеру: полная версия модели содержала около 1,5 миллиарда параметров. Из соображений безопасности OpenAI первоначально опубликовала только уменьшенные варианты модели; полная версия (1,5 млрд параметров) была выпущена 5 ноября 2019 года. В отличие от GPT-1, обучавшейся на корпусе BookCorpus (~5 ГБ), GPT-2 была обучена на специально собранном корпусе WebText объёмом около 40 ГБ, включающем текстовые данные из интернет-источников с высокой степенью качества. Увеличение как размера модели, так и объёма обучающих данных позволило GPT-2 значительно повысить качество генерации текста: она демонстрировала способность создавать содержательные статьи, рассказы и даже связные фрагменты художественной прозы.

В GPT-2 применялась архитектура авторегрессионного трансформера-декодера, аналогичная GPT-1, без существенных изменений. Модель состояла из 48 слоёв самовнимания, имела размер скрытого состояния 1600 и включала около 1,5 миллиарда параметров. Число голов внимания составляло 25 (при сохранении размера 64 на голову, унаследованного от GPT-1: 1600 ÷ 64 = 25). Обучение осуществлялось на задаче предсказания следующего токена на основе предыдущего контекста с применением маскированного механизма внимания.

Одним из главных отличий GPT-2 стало то, что модель впервые продемонстрировала высокую эффективность в режиме zero-shot learning — способности решать новые задачи, не проходя явного дообучения на примерах для этих задач. Модель обучалась на большом корпусе обобщённых текстов и не проходила специализированного обучения на данных конкретных задач. Оценка проводилась в режиме zero-shot, при котором модель выполняла задачи исключительно на основе знаний, полученных в процессе предварительного обучения. В ряде задач языкового моделирования GPT-2 достигала качества, сопоставимого или превосходящего результаты моделей, специально обученных на специализированных наборах данных (например, Википедия, новостные тексты, книги).

GPT-3

Модель GPT-3 была представлена компанией OpenAI в июне 2020 года (статья на arXiv появилась 28 мая 2020, бета-доступ к API открыт 11 июня 2020). Она стала следующим шагом в развитии генеративных трансформеров после GPT-2 и отличалась масштабированием архитектуры до 175 миллиардов параметров, что сделало её на тот момент крупнейшей языковой моделью.

Архитектура GPT-3 осталась в основе прежней — многослойный авторегрессивный трансформер-декодер без кардинальных изменений. Основные улучшения производительности были достигнуты за счёт увеличения числа слоёв, ширины скрытых слоёв и масштабов обучения. Модель обучалась на объединении нескольких крупных корпусов текстов, включая Common Crawl, WebText2, Books1, Books2 и Википедию. Суммарный объём данных составлял порядка 570 ГБ и более (570 ГБ приходится на отфильтрованную часть Common Crawl, доминирующую в обучающей смеси).

Одной из главных особенностей GPT-3 стала её способность к few-shot learning и zero-shot learning: модель могла выполнять широкий спектр задач обработки естественного языка, включая перевод, суммаризацию, ответы на вопросы, написание эссе и даже программирование, основываясь лишь на нескольких примерах в текстовом запросе или вообще без примеров.

GPT-3.5

Модель GPT-3.5 была представлена компанией OpenAI в конце 2022 года в рамках эволюционного развития семейства GPT. Она строилась на базе архитектуры масштабированного авторегрессивного трансформера-декодера, использованной в GPT-3, с улучшениями в качестве генерации текста, обработке контекста и способности следовать сложным инструкциям. Точное число параметров GPT-3.5 официально не раскрывалось; предположительно davinci-версии сопоставимы по размеру с GPT-3 (175 млрд), однако точные параметры версии gpt-3.5-turbo неизвестны.

Обучение GPT-3.5 включало расширенное использование методов обучения с подкреплением на основе обратной связи человека (Reinforcement Learning from Human Feedback, RLHF) в версиях text-davinci-003 и gpt-3.5-turbo. При этом более ранняя версия text-davinci-002 обучалась с использованием supervised fine-tuning (SFT), а не RLHF. Модель обучалась на расширенных корпусах текстов, включающих Common Crawl, Books, WebText и другие источники высокого качества. Контекстное окно в ранних популярных версиях (gpt-3.5-turbo) составляло 4 096 токенов; впоследствии OpenAI выпустила обновлённые версии с контекстом до 16 385 токенов[10].

На практике GPT-3.5 была адаптирована к решению широкого круга задач обработки естественного языка, таких как:

  • Генерация связного и логичного текста;
  • Ответы на вопросы (QA) и понимание контекста;
  • Следование многошаговым инструкциям;
  • Улучшенное поддержание долгосрочного контекста в диалогах.

На основе GPT-3.5 были выпущены несколько ключевых версий, предназначенных для различных целей:

  • text-davinci-002 — первая общедоступная модель, основанная на GPT-3.5, оптимизированная для генерации и следования инструкциям (обучена с помощью SFT).
  • text-davinci-003 — улучшенная версия с ещё большей способностью к рассуждению и генерации сложных текстов (обучена с применением RLHF).
  • gpt-3.5-turbo — наиболее производительная и экономичная версия GPT-3.5, использовавшаяся в сервисе ChatGPT с конца 2022 года.

GPT-4

Модель GPT-4 была представлена компанией OpenAI 14 марта 2023 года в работе "GPT-4 Technical Report". Она стала следующим этапом развития семейства языковых моделей, предложив значительные улучшения в области понимания текста, генерации осмысленных и креативных ответов, а также обработки мультимодальных данных. Точное количество параметров и архитектурные детали модели официально не раскрывались — технический отчёт GPT-4 прямо указывает, что информация об архитектуре, размере модели, аппаратном обеспечении, вычислительных затратах на обучение и построении датасетов не публикуется[11]. По неофициальным внешним оценкам, GPT-4 могла использовать подход Mixture of Experts (MoE) и иметь суммарный масштаб порядка ~1,8 триллиона параметров, однако OpenAI эти цифры официально не подтверждала и не опровергала[12].

GPT-4 является мультимодальной моделью, способной принимать на вход как текст, так и изображения. Следует отметить, что на момент первоначального запуска в марте 2023 года была доступна только текстовая модальность; поддержка ввода изображений была развёрнута позднее. Контекстное окно составляло 8 192 токена в базовой версии и 32 768 токенов в варианте GPT-4-32k. Модель использовала методы RLHF (обучение с подкреплением на основе обратной связи человека).

Обучение GPT-4 осуществлялось на объединении масштабных текстовых и мультимодальных корпусов. Конкретные детали обучающих данных, аппаратного обеспечения и методологии не раскрываются в официальных публикациях OpenAI.

Обучение происходило в несколько этапов:

  • масштабное неконтролируемое предварительное обучение на текстах и изображениях,
  • контролируемая донастройка (supervised fine-tuning) на специализированных задачах,
  • финальный этап обучения с подкреплением на основе обратной связи человека (RLHF) для повышения надёжности, безопасности и качества интерпретации инструкций.

На основе GPT-4 были выпущены несколько основных версий:

  • GPT-4 (март 2023): базовая версия с поддержкой текстового ввода (поддержка изображений добавлена позднее); контекстное окно 8 192 токена; также выпущен вариант GPT-4-32k с контекстом 32 768 токенов.
  • GPT-4 Turbo (ноябрь 2023): оптимизированная модификация GPT-4 с увеличенным контекстным окном до 128 000 токенов[13]; сниженные вычислительные затраты и ускоренная генерация; поддержка режимов вызова функций (function calling) и JSON-вывода.
  • GPT-4o (май 2024): мультимодальная версия нового поколения; в launch-анонсе позиционировалась как omni-модель, способная работать с текстом, изображениями и аудио в реальном времени (в отличие от GPT-4 Turbo, где различные модальности обслуживались отдельными модулями); при этом базовая API-модель gpt-4o описывается как text+image input, text output; контекстное окно 128 000 токенов.
  • GPT-4.5 (февраль 2025): исследовательский превью (research preview); в system card OpenAI прямо указывает, что модель «builds on GPT-4o»[3]; улучшенная генерация сложных текстов, повышенная точность выполнения инструкций и уменьшенный уровень галлюцинаций; контекстное окно 128 000 токенов. Описывалась как «последняя модель OpenAI без chain-of-thought» (кодовое название — Orion)[14]. В API модель gpt-4.5-preview была объявлена deprecated 14 апреля 2025 года и отключена 14 июля 2025 года[4].
  • GPT-4.1 (апрель 2025): стабильная версия с кардинальным расширением контекста до 1 047 576 токенов; принимает текст и изображения на вход, выдаёт текст[15]; выпущена одновременно в трёх вариантах (GPT-4.1, GPT-4.1 mini, GPT-4.1 nano); первоначально доступна только через API, позднее развёрнута в ChatGPT.

GPT-5

7 августа 2025 года OpenAI представила GPT‑5 как свою на тот момент «самую умную, быструю и полезную» модель, с встроенным режимом углублённых рассуждений (thinking) и фокусом на практических сценариях — письмо, программирование, работу со здоровьем и мультимодальное понимание. GPT‑5 постепенно стала моделью по умолчанию для большинства авторизованных пользователей ChatGPT, вытеснив ранее используемые модели семейства GPT‑4/4o и o‑серии.[16]

GPT‑5 реализована как единая система с двумя основными режимами работы: быстрые, экономичные ответы для повседневных запросов (условно gpt‑5 main) и углублённое рассуждение для сложных задач (условно gpt‑5 thinking). Выбор режима происходит автоматически с помощью маршрутизатора, который учитывает тип диалога, сложность запроса, необходимость инструментов и явные подсказки пользователя (например, «think step by step» или «analyze in depth»). В ChatGPT пользователю доступны режимы Auto / Instant / Thinking / Pro; варианты mini и nano — это прежде всего API-модели, а mini в пользовательском продукте может использоваться как fallback после исчерпания лимита[17].

Через программный интерфейс предоставляются несколько размеров и конфигураций GPT‑5; в документации OpenAI основными вариантами указываются gpt‑5, gpt‑5‑mini и gpt‑5‑nano (все они поддерживают текст и визуальные данные). Максимальное суммарное контекстное окно для семейства GPT‑5 в API составляет порядка 400 000 токенов (с разделением бюджетов на вход и рассуждение/вывод), при этом конкретные лимиты могут различаться в зависимости от выбранного варианта модели и продукта[18].

По ряду веб‑поисковых и фактологических бенчмарков GPT‑5 демонстрирует заметное снижение частоты галлюцинаций и ошибок по сравнению с моделями GPT‑4o и более ранними «thinking»‑моделями OpenAI. В официальном анонсе OpenAI приводила оценки снижения ошибок примерно на 45 % по сравнению с GPT-4o и примерно на 80 % по сравнению с o3 в thinking-режиме — эти результаты были получены в специфических условиях: с включённым веб-поиском на анонимизированных промптах, репрезентативных для производственного трафика ChatGPT[19].

GPT-5.1

Модель GPT-5.1 была представлена компанией OpenAI 12 ноября 2025 года как первая значительная итерация после базовой GPT-5, ориентированная на улучшение повседневного взаимодействия, разговорности и адаптивности. Модель сохраняет единую систему с быстрым режимом (GPT-5.1 Instant) и углублённым рассуждением (GPT-5.1 Thinking), но вводит адаптивное мышление (adaptive reasoning): модель динамически определяет объём вычислений в зависимости от сложности запроса, что делает её заметно быстрее на простых задачах без потери качества на сложных.

Обучение GPT-5.1 строилось на базе GPT-5 с дополнительным этапом пост-обучения, включающим расширенный RLHF, фокус на естественности тона и снижение «холодности» ответов. Контекстное окно в API составляет 400 000 токенов, максимальный вывод — 128 000 токенов[20]. Появилась поддержка расширенного кэширования промптов до 24 часов, что существенно снижает стоимость и задержки при многошаговых диалогах[21].

Ключевые особенности:

  • GPT-5.1 Instant — основной режим для повседневных задач; впервые использует adaptive reasoning, чтобы определять, когда стоит «подумать» перед ответом на более сложный запрос[21].
  • GPT-5.1 Thinking — адаптивное выделение времени на рассуждения; по данным OpenAI, на репрезентативном распределении задач ChatGPT модель примерно вдвое быстрее на самых простых задачах и примерно вдвое медленнее на самых трудных по сравнению с GPT-5 Thinking[21].
  • Улучшенная мультимодальность (текст + vision).
  • Улучшены coding- и agentic-сценарии, а также эффективность на простых задачах за счёт adaptive reasoning и extended prompt caching[22].

GPT-5.2

Модель GPT-5.2 была выпущена 11 декабря 2025 года как «самая способная модель серии для профессиональной работы и обучения». Это эволюция GPT-5.1 с акцентом на экономическую ценность: генерация таблиц, презентаций, сложного кода, end-to-end задач. Сохраняет единую архитектуру с режимами Instant, Thinking и новым Pro (для задач, требующих максимального compute и времени на рассуждения).

Обучение включало обновлённый корпус с knowledge cutoff август 2025, усиленный instruction-tuning и RLHF для снижения ошибок в многошаговых сценариях. Контекст — 400K токенов (128K max output). Модель стала надёжнее в профессиональных сценариях, с лучшей фактологической точностью и использованием инструментов.

На основе GPT-5.2 18 декабря 2025 была выпущена специализированная GPT-5.2-Codex — агентная coding-модель с улучшенным сжатием контекста (context compaction), поддержкой Windows, усиленной кибербезопасностью и long-horizon reasoning (задачи до нескольких часов).

По состоянию на 13 февраля 2026 года, после вывода из эксплуатации ряда старых моделей, GPT-5.2 временно стала моделью по умолчанию в ChatGPT. Однако уже к началу марта 2026 года эту роль перешли к GPT‑5.3 Instant и GPT‑5.4[17].

GPT-5.3-Codex

GPT-5.3-Codex была представлена 5 февраля 2026 года как «самая мощная агентная coding-модель на сегодняшний день». Это объединение frontier-coding способностей GPT-5.2-Codex с профессиональным reasoning GPT-5.2 в единой модели, которая на 25 % быстрее предшественников.

Модель способна выполнять практически любые задачи разработчика: long-running workflows, research, tool use, выполнение кода, interactive steering (пользователь может вмешиваться в реальном времени без потери контекста). Ранние версии модели использовались командой OpenAI для отладки собственного обучения, deployment и evaluations.

Ключевые результаты на момент анонса 5 февраля 2026 года: Terminal-Bench ~77,3 %, OSWorld-Verified ~64,7 %, SWE-Bench Pro ~56,8 %. В более позднем релизе GPT-5.4 от 5 марта 2026 года OpenAI привела обновлённый результат OSWorld-Verified 74,0 % для GPT-5.3-Codex при использовании нового API-параметра, сохраняющего исходное разрешение изображения[23][7].

12 февраля 2026 года OpenAI также выпустила GPT-5.3-Codex-Spark — компактную ultra-fast версию в партнёрстве с Cerebras, оптимизированную для реального времени: более 1000 токенов в секунду, text-only, контекст 128K. На старте это был rollout для пользователей ChatGPT Pro в Codex и небольшого числа API design partners, а не широкодоступная API-модель[24].

GPT-5.4

5 марта 2026 года OpenAI представила GPT‑5.4 как новую frontier-модель для профессиональной работы. GPT‑5.4 объединяет сильные стороны последних релизов OpenAI в reasoning, coding и agentic workflows и впервые для основной линейки получила встроенные возможности computer use. Одновременно OpenAI выпустила GPT‑5.4 Pro — вариант для самых сложных задач, использующий больше вычислений и более длительное рассуждение[7].

В API модель gpt-5.4 описывается как рекомендуемая по умолчанию для широкого спектра general-purpose и coding-задач; контекстное окно составляет 1 050 000 токенов, максимальный вывод — 128 000 токенов. Модель принимает текст и изображения на вход и выдаёт текст на выход[8][25].

В ChatGPT режим Auto по состоянию на 7 марта 2026 года автоматически переключается между GPT‑5.3 Instant и GPT‑5.4 Thinking, тогда как GPT‑5.4 Pro доступна как отдельный high-capability режим. Для вошедших пользователей ChatGPT моделью по умолчанию является GPT‑5.3[17].

Развитие моделей GPT

Развитие моделей GPT
Поколение Год выпуска Число параметров Размер корпуса текстов Ключевые особенности
GPT-1 2018 ≈117–124 млн[26] ≈5 ГБ (BooksCorpus) Генеративное предобучение на больших корпусах; двухэтапное обучение (pre-training + fine-tuning)
GPT-2 2019 1,5 млрд ≈40 ГБ (WebText) Существенно улучшенная генерация текста; демонстрация сильного zero-shot поведения; поначалу частичная публикация модели
GPT-3 2020 175 млрд ≈570 ГБ (Common Crawl, WebText2 и др.) Масштабное in-context learning; выраженные возможности few-shot и zero-shot обучения без донастройки
GPT-3.5 2022 Не раскрыто (davinci-версии предположительно ~175 млрд) >570 ГБ + дополнительные корпуса и instruction tuning Улучшенная стабильность и следование инструкциям; основа ранних версий ChatGPT
GPT-4 2023 Не раскрыто[27] Не раскрыто Мультимодальность (текст + изображения); повышенная точность и устойчивость к галлюцинациям; контекст 8k/32k токенов
GPT-4 Turbo 2023 Не раскрыто Базируется на обучении GPT-4 (детали не раскрыты) Увеличение контекста до 128 000 токенов; оптимизация скорости и стоимости генерации
GPT-4o 2024 Не раскрыто Мультимодальные данные (текст, изображения, аудио) Единая нейросетевая мультимодальная обработка; высокая скорость отклика
GPT-4.5 2025 Не раскрыто Расширенные текстовые и мультимодальные корпуса Research preview на базе GPT-4o; снижение ошибок; deprecated к 2026 году
GPT-4.1 2025 Не раскрыто Обновлённые корпуса Контекст до 1 047 576 токенов; текст + изображения на вход, текст на выход
GPT-5 2025 (август) Не раскрыто Крупномасштабные мультимодальные корпуса Единая система с режимами быстрого ответа и рассуждения; контекст ~400K токенов; снижение галлюцинаций
GPT-5.1 2025 (ноябрь) Не раскрыто Расширенные корпуса GPT-5 + RLHF Адаптивное reasoning; 24h prompt caching; улучшения в coding
GPT-5.2 2025 (декабрь) Не раскрыто Knowledge cutoff август 2025 Pro-режим; professional knowledge work; GPT-5.2-Codex (агентный coding)
GPT-5.3-Codex 2026 (февраль) Не раскрыто Обновлённые + self-improvement data 25 % быстрее; full-spectrum agent; interactive steering
GPT-5.3-Codex-Spark 2026 (февраль) Не раскрыто Компактный >1000 t/s на Cerebras; real-time coding; 128K контекст
GPT-5.3 Instant 2026 (март) Не раскрыто Не раскрыто Обновление самой используемой разговорной модели ChatGPT; улучшены factuality, web search и conversational flow
GPT-5.4 2026 (март) Не раскрыто Не раскрыто Новая frontier-модель для профессиональной работы; native computer use; модель по умолчанию в API для general-purpose и большинства coding-задач
GPT-5.4 Pro 2026 (март) Не раскрыто Не раскрыто Вариант GPT-5.4 с большим compute для самых сложных задач

Архитектурные параметры моделей GPT

Архитектурные параметры моделей GPT
Модель Год выпуска Число параметров Число слоёв Размер скрытого состояния Количество голов внимания Контекстное окно Размер обучающего корпуса
GPT-1 2018 ≈117–124 млн 12 768 12 512 токенов ≈5 ГБ (BooksCorpus)
GPT-2 2019 1,5 млрд 48 1 600 25 1 024 токена ≈40 ГБ (WebText)
GPT-3 2020 175 млрд 96 12 288 96 2 048 токенов ≈570 ГБ (Common Crawl + WebText2 + другие)
GPT-3.5 2022 Не раскрыто (davinci-версии предположительно ~175 млрд) (оценочно близко к GPT-3) (оценочно близко к GPT-3) (не раскрыто) До 4 096 токенов (ранние); до 16 385 токенов (поздние) Расширенный Common Crawl + дополнительные датасеты и instruction tuning
GPT-4 2023 Не раскрыто (не раскрыто) (не раскрыто) (не раскрыто) 8 192 токена (базовая); 32 768 (GPT-4-32k) Не раскрыто
GPT-4 Turbo 2023 (не раскрыто) (не раскрыто) (не раскрыто) (не раскрыто) До 128 000 токенов Оптимизированная версия GPT-4 (детали корпуса не раскрыты)
GPT-4o 2024 (не раскрыто) (не раскрыто) (не раскрыто) (не раскрыто) До 128 000 токенов Мультимодальные данные: текст, изображения, аудио
GPT-4.5 2025 (не раскрыто) (не раскрыто) (не раскрыто) (не раскрыто) До 128 000 токенов Обновлённые текстовые и мультимодальные корпуса
GPT-4.1 2025 (не раскрыто) (не раскрыто) (не раскрыто) (не раскрыто) До 1 047 576 токенов Мультимодальность; масштабированное обучение с упором на длинные контексты
GPT-5 2025 (не раскрыто) (не раскрыто) (не раскрыто) (не раскрыто) До ≈400 000 токенов (суммарный контекст) Крупномасштабные мультимодальные корпуса (детали не раскрыты)
GPT-5.4 2026 (не раскрыто) (не раскрыто) (не раскрыто) (не раскрыто) 1 050 000 токенов; 128 000 max output Не раскрыто

Ссылки

Примечания

  1. OpenAI. «Introducing GPT-5» (7 августа 2025). https://openai.com/index/introducing-gpt-5/
  2. OpenAI. «Introducing GPT-4.5» (2025). https://openai.com/index/introducing-gpt-4-5/
  3. 3,0 3,1 OpenAI. GPT-4.5 System Card (27 февраля 2025). https://cdn.openai.com/gpt-4-5-system-card-2272025.pdf
  4. 4,0 4,1 OpenAI Developers. Deprecations. https://developers.openai.com/api/docs/deprecations/
  5. OpenAI. «Introducing GPT-4.1 in the API» (2025).
  6. OpenAI. «GPT-5.3 Instant: Smoother, more useful everyday conversations» (3 марта 2026). https://openai.com/index/gpt-5-3-instant/
  7. 7,0 7,1 7,2 OpenAI. «Introducing GPT-5.4» (5 марта 2026). https://openai.com/index/introducing-gpt-5-4/
  8. 8,0 8,1 OpenAI Developers. «Using GPT-5.4». https://developers.openai.com/api/docs/guides/latest-model/
  9. Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
  10. OpenAI отмечала, что обновлённый GPT-3.5 Turbo «now comes by default with 16k context».
  11. OpenAI. «GPT-4 Technical Report» (2023). arXiv:2303.08774.
  12. Эти оценки основаны на данных, опубликованных SemiAnalysis и подтверждённых рядом независимых источников.
  13. Анонсирована на DevDay OpenAI 6 ноября 2023 года; общая доступность — с 9 апреля 2024 года.
  14. Кодовое имя Orion и характеристика «последняя модель без chain-of-thought» фигурировали в roadmap-коммуникации Сэма Альтмана и ряде медиа-публикаций (Reuters, The Verge), но не в самом launch post GPT-4.5.
  15. OpenAI. «Introducing GPT-4.1 in the API» (2025).
  16. OpenAI. «Introducing GPT-5» (7 августа 2025).
  17. 17,0 17,1 17,2 OpenAI Help Center. «GPT-5.3 and GPT-5.4 in ChatGPT». https://help.openai.com/en/articles/11909943-gpt-53-and-54-in-chatgpt
  18. OpenAI API documentation. Models: GPT-5.
  19. OpenAI. «Introducing GPT-5» (2025). Условия тестирования: «with web search enabled on anonymized prompts representative of ChatGPT production traffic».
  20. OpenAI Developers. Models: GPT-5.1. https://developers.openai.com/api/docs/models/gpt-5.1
  21. 21,0 21,1 21,2 OpenAI. «GPT-5.1: A smarter, more conversational ChatGPT» (12 ноября 2025). https://openai.com/index/gpt-5-1/
  22. OpenAI. «GPT-5.1 for developers» (2025). https://openai.com/index/gpt-5-1-for-developers/
  23. OpenAI. «Introducing GPT-5.3-Codex» (5 февраля 2026). https://openai.com/index/introducing-gpt-5-3-codex/
  24. OpenAI. «Introducing GPT-5.3-Codex-Spark» (12 февраля 2026). https://openai.com/index/introducing-gpt-5-3-codex-spark/
  25. OpenAI Developers. Models: GPT-5.4. https://developers.openai.com/api/docs/models/gpt-5.4
  26. Точное число параметров GPT-1 в разных источниках варьируется; исходная публикация не указывает число явно. Цифра ≈117 млн широко цитируется, а ≈124 млн фигурирует в ряде поздних материалов.
  27. По неофициальным внешним оценкам (SemiAnalysis и др.), возможно MoE-архитектура с суммарным масштабом ~1,8 трлн параметров; OpenAI эти данные не подтверждала.

Литература

  • Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
  • Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
  • Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
  • OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.