GPT-4o
GPT‑4o (произносится «джи‑пи‑ти‑фор‑оу»; буква «o» от лат. omni — «всё», «всеобъемлющий») — мультимодальная большая языковая модель (LLM) семейства GPT, разработанная компанией OpenAI и представленная 13 мая 2024 года[1]. GPT‑4o стала первой моделью OpenAI, обученной как единая сквозная нейронная сеть (end‑to‑end), способная одновременно обрабатывать текст, изображения и аудио — в отличие от предшественников, где для каждой модальности использовались отдельные модели[2]. Модель заменила GPT‑4 Turbo в качестве флагмана линейки, предложив вдвое более высокую скорость генерации, на 50 % более низкую стоимость API и качественно новые мультимодальные возможности[1]. К семейству GPT‑4o относятся более 20 вариантов, включая компактную GPT‑4o mini, аудиомодели, модели реального времени, модели поиска и специализированные речевые модели[3].
Информационная карточка
| Параметр | Значение |
|---|---|
| Полное название | GPT‑4o (GPT‑4 Omni) |
| Разработчик | OpenAI |
| Дата анонса | 13 мая 2024 года[1] |
| Тип | Авторегрессионная мультимодальная модель (трансформер)[2] |
| Количество параметров | Официально не раскрыто (неофициальная оценка — ~200 млрд для GPT‑4o, ~8 млрд для GPT‑4o mini)[4] |
| Контекстное окно | 128 000 токенов[3] |
| Макс. выход | 16 384 токена (4 096 для gpt‑4o‑2024‑05‑13)[3] |
| Дата отсечки обучающих данных | Октябрь 2023 (обновлено до июня 2024 в поздних версиях)[2] |
| Токенизатор | o200k_base (200 000 токенов)[1] |
| Модальности входа | Текст, изображения, аудио, видео[1] |
| Модальности выхода | Текст, аудио, изображения (через GPT Image 1)[1][3] |
| Лицензия | Проприетарная, закрытый исходный код |
| Системная карточка | arXiv:2410.21276 (25 октября 2024, 417 авторов)[2] |
| Идентификаторы API | gpt‑4o, gpt‑4o‑2024‑05‑13, gpt‑4o‑2024‑08‑06, gpt‑4o‑2024‑11‑20[3]
|
| Текущий статус | Доступна в API; выведена из ChatGPT 13 февраля 2026 года[5] |
Позиционирование в линейке
GPT‑4o занимала позицию флагманской мультимодальной модели общего назначения в семействе GPT на момент релиза. Она заменила GPT‑4 Turbo (апрель 2024) как основную модель для большинства задач в ChatGPT и API, предлагая более высокую скорость и сниженную стоимость при сохранении или улучшении качества на текстовых задачах[1].
Модель эволюционировала от GPT‑4 Turbo путём перехода от раздельных компонентов (отдельные модели для зрения и синтеза речи) к единой end‑to‑end архитектуре. Ключевые отличия от соседних моделей линейки:
- По сравнению с GPT‑4 Turbo (предшественник) — GPT‑4o обеспечивает сопоставимую интеллектуальную производительность на английском языке и в кодировании, но значительно превосходит предшественника в мультиязычных задачах, обработке изображений и аудио. GPT‑4o вдвое быстрее и на 50 % дешевле по API. Принципиальное архитектурное отличие — нативная мультимодальность (единая модель вместо конвейера)[1].
- По сравнению с GPT‑4.1 (апрель 2025) — модель следующего поколения для API‑разработчиков, превосходящая GPT‑4o на большинстве бенчмарков (MMLU 90,2 % против 85,7 %, SWE‑bench Verified 54,6 % против 33,2 %) при более низкой стоимости; при этом GPT‑4.1 не предоставлялась в интерфейсе ChatGPT[4].
- По сравнению с GPT‑5 (август 2025) — стала преемником GPT‑4o в ChatGPT, однако пользователи массово жаловались на потерю «тёплого» и эмоционального стиля GPT‑4o[4].
- По сравнению с GPT‑4o mini (июль 2024) — компактная и значительно более дешёвая версия, заменившая GPT‑3.5 Turbo в бесплатном ChatGPT[6].
GPT‑4o стала первой моделью OpenAI, доступной бесплатным пользователям ChatGPT (с ограничениями по количеству сообщений)[1].
Архитектура и ключевые инновации
Сквозное мультимодальное обучение
Главное архитектурное новшество GPT‑4o заключается в сквозном обучении одной нейронной сети на данных всех модальностей одновременно[1][2]. До GPT‑4o голосовой режим ChatGPT работал по конвейерной схеме из трёх отдельных моделей: Whisper (распознавание речи) → GPT‑3.5/GPT‑4 (обработка текста) → TTS (синтез речи). Такой конвейер терял информацию о тоне, эмоциях, фоновых звуках и множественных говорящих, а задержка достигала 2,8 секунды для GPT‑3.5 и 5,4 секунды для GPT‑4[1]. GPT‑4o обрабатывает аудио нативно — время отклика составляет в среднем 320 миллисекунд (минимум 232 мс), что сопоставимо со скоростью реакции человека в разговоре[1][2].
Системная карточка GPT‑4o содержит несколько принципиальных утверждений об архитектуре[2]:
- модель является авторегрессионной трансформерной LLM, предсказывающей следующий токен по мультимодальному контексту;
- используется единое представление модальностей, обученное на смеси текстовых, кодовых, математических, визуальных, аудио‑ и видеоданных;
- обучение проходило в несколько фаз, включая предобучение (pre‑training) на больших мультимодальных корпусах и последующее дообучение с использованием Reinforcement Learning from Human Feedback (RLHF) и red‑teaming.
Параметры и архитектурные детали
Компания OpenAI не раскрыла подробных спецификаций модели — количество параметров, число слоёв, наличие MoE‑структуры и используемое аппаратное обеспечение для обучения[2]. Неофициальная оценка в ~200 миллиардов параметров основана на данных исследовательской статьи Microsoft, но не подтверждена OpenAI[4].
Токенизатор o200k_base
GPT‑4o использует новый токенизатор o200k_base с словарём из 200 000 токенов — вдвое больше, чем cl100k_base у GPT‑4[1]. Это значительно улучшило эффективность сжатия для нелатинских алфавитов: например, для гуджарати — в 4,4 раза, для телугу — в 3,5 раза, для малаялама — до 4‑кратного улучшения[1]. Для русского, корейского, арабского и других языков для кодирования одного и того же текста требуется существенно меньше токенов, что увеличивает информационную плотность контекстного окна и снижает затраты при использовании API.
Скорость генерации
Скорость генерации GPT‑4o приблизительно вдвое выше, чем у GPT‑4 Turbo[1]. По данным независимых измерений Artificial Analysis, версия от ноября 2024 года выдаёт ~157 токенов/секунду, а версия ChatGPT — до 185 токенов/секунду, тогда как GPT‑4 Turbo демонстрировала лишь ~28 токенов/секунду[4].
Производительность
Текстовые бенчмарки
Результаты GPT‑4o на стандартных академических бенчмарках при релизе (данные OpenAI, снапшот gpt‑4o‑2024‑05‑13)[1][2]:
| Бенчмарк | GPT‑4o | GPT‑4 Turbo | Claude 3.5 Sonnet | Примечание |
|---|---|---|---|---|
| MMLU (0‑shot CoT) | 88,7 % | 86,5 % | 88,3 % | Общие знания в 57 дисциплинах |
| GPQA Diamond (0‑shot CoT) | 53,6 % | 49,1 % | — | Вопросы уровня аспирантуры |
| MATH (0‑shot CoT) | 76,6 % | 72,2 % | — | Математические задачи олимпиадного уровня |
| HumanEval (0‑shot) | 90,2 % | 87,6 % | 92,0 % | Генерация кода на Python |
| MGSM (мультиязычная математика) | 90,5 % | 88,6 % | — | Математика на нескольких языках |
| DROP (F1, 3‑shot) | 83,4 % | 85,4 % | — | Чтение с пониманием |
| SWE‑bench Verified | 33,2 % | — | 64 % | Агентное решение задач |
GPT‑4o превзошла GPT‑4 Turbo на 21 из 22 внутренних и внешних тестов OpenAI; единственная регрессия зафиксирована на бенчмарке DROP[2].
Бенчмарки по работе с изображениями
| Бенчмарк | GPT‑4o | GPT‑4 Turbo | Claude 3.5 Sonnet |
|---|---|---|---|
| MMMU (val, 0‑shot CoT) | 69,1 % | 63,1 % | 68,3 % |
| MathVista (testmini) | 63,8 % | 58,1 % | 67,7 % |
| AI2D (test) | 94,2 % | 89,4 % | 94,7 % |
| ChartQA (test) | 85,7 % | 78,1 % | 90,8 % |
| DocVQA (test, ANLS) | 92,8 % | 87,2 % | 95,2 % |
Медицинские бенчмарки
Системная карточка GPT‑4o зафиксировала существенный прирост в медицинских задачах[2]:
| Бенчмарк | GPT‑4o | GPT‑4 Turbo |
|---|---|---|
| MedQA (USMLE, 0‑shot) | 89 % | 78 % |
| MMLU Clinical Knowledge (0‑shot) | 92 % | 85 % |
| MMLU Medical Genetics (0‑shot) | 96 % | 93 % |
Рейтинг LMSYS Chatbot Arena
GPT‑4o при запуске заняла первое место в рейтинге LMSYS Chatbot Arena с ELO ~1287[4]. Версия chatgpt‑4o‑latest от сентября 2024 года достигла рекорда в 1338 баллов, снова заняв первую строчку. До официального анонса GPT‑4o тестировалась на Chatbot Arena под псевдонимами gpt2‑chatbot, im‑a‑good‑gpt2‑chatbot и im‑also‑a‑good‑gpt2‑chatbot; 7 мая 2024 года Сэм Альтман намекнул на это в публикации «im‑a‑good‑gpt2‑chatbot»[4].
Следует отметить, что исследование LMSYS показало: высокие рейтинги GPT‑4o частично объяснялись стилистическими факторами (многословные, хорошо отформатированные ответы), а не исключительно качеством содержания[4].
Возможности и ограничения
Сильные стороны
- Мультимодальность в реальном времени: единая модель для текста, аудио, изображений и видео с задержкой, сопоставимой с человеческой реакцией (232–320 мс для аудио)[1][2].
- Эффективность: вдвое более высокая скорость генерации и на 50 % более низкая стоимость по сравнению с GPT‑4 Turbo[1].
- Мультиязычность: значительно улучшенная поддержка неанглийских языков за счёт нового токенизатора и мультиязычного обучения[1].
- Специализированные области: высокие результаты в медицинских (MedQA 89 %), научных и кодовых бенчмарках[2].
- Инструментарий: поддержка function calling, Structured Outputs, потоковой генерации, файн‑тюнинга[3].
- Эмоциональное аудио: способность смеяться, петь, менять язык в середине предложения, адаптировать тональность и передавать эмоции в голосовом режиме[1].
Известные ограничения
- Галлюцинации: модель подвержена генерации некорректных фактов, особенно в редких предметных областях[2].
- Дата отсечки знаний: ограничена октябрём 2023 года в ранних снапшотах (обновлена до июня 2024 в поздних версиях)[2].
- Недетерминированность: вариативность ответов при одинаковых запросах[2].
- Регрессии: в отдельных снапшотах отмечалось снижение качества по сравнению с предыдущими версиями, в частности при следовании сложным инструкциям и генерации кода[4].
- Аудио: снижение robustness при шуме, эхе, нестандартных акцентах и прерываниях[2].
Аудио, голосовые возможности и Realtime API
Расширенный голосовой режим (Advanced Voice Mode)
Advanced Voice Mode в ChatGPT стал визитной карточкой GPT‑4o. В отличие от старого голосового режима с конвейером из трёх моделей, GPT‑4o обрабатывает аудио нативно в единой нейронной сети, сохраняя информацию о тоне, эмоциях, акценте и фоновых звуках[1]. При запуске были доступны 5 голосов: Breeze, Cove, Ember, Juniper и Sky. Голос Sky был отключён 20 мая 2024 года из‑за скандала с актрисой Скарлетт Йоханссон (подробнее — в разделе «Скандал вокруг голоса Sky»)[4].
Хронология развёртывания голосового режима: альфа‑версия для ограниченной группы пользователей Plus — 30 июля 2024; полное развёртывание для Plus и Team — сентябрь 2024. В ряде стран (ЕС, Великобритания, Швейцария и др.) запуск был отложен. Бесплатные пользователи не получили доступ к Advanced Voice Mode[4].
Realtime API
1 октября 2024 года OpenAI запустила Realtime API — интерфейс для создания приложений с речью в реальном времени на базе GPT‑4o[3]. API поддерживает три протокола подключения: WebSocket (серверные приложения), WebRTC (клиентская потоковая передача с минимальной задержкой) и SIP (VoIP‑телефония, добавлен позднее). Ключевые возможности: двунаправленная потоковая передача аудио, детектирование голосовой активности (VAD), вызов функций, управление контекстом беседы[3].
Модели аудио в Chat Completions API
Модели gpt‑4o‑audio‑preview позволяют передавать аудио через стандартный REST‑интерфейс Chat Completions (без необходимости поддерживать постоянное соединение). Поддерживаемые форматы вывода: WAV, MP3, FLAC, Opus, PCM16. Доступные голоса расширились от 6 до 13: alloy, ash, ballad, coral, echo, fable, nova, onyx, sage, shimmer, verse, marin, cedar; поддерживается также настраиваемый голос через API[3].
GPT‑4o mini
GPT‑4o mini была анонсирована 18 июля 2024 года как «наиболее экономичная малая модель» OpenAI и прямая замена GPT‑3.5 Turbo[6]. Контекстное окно составляет 128 000 токенов (против 16 385 у GPT‑3.5 Turbo), а максимальный выход — 16 384 токена.
GPT‑4o mini стала первой моделью OpenAI с методом instruction hierarchy, повышающим устойчивость к джейлбрейкам, инъекциям промптов и извлечению системных промптов[6]. Модель поддерживает ввод текста и изображений, function calling, Structured Outputs, JSON mode, потоковую генерацию, файн‑тюнинг и кэширование промптов; аудио и видео не поддерживаются базовой текстовой версией[3].
| Бенчмарк | GPT‑4o mini | Gemini Flash | Claude Haiku |
|---|---|---|---|
| MMLU | 82,0 % | 77,9 % | 73,8 % |
| MGSM | 87,0 % | 75,5 % | 71,7 % |
| HumanEval | 87,2 % | 71,5 % | 75,9 % |
| MMMU (vision) | 59,4 % | 56,1 % | 50,2 % |
В ChatGPT модель используется как модель по умолчанию для бесплатных пользователей и как fallback‑модель при исчерпании лимитов на GPT‑4o/GPT‑5 для платных подписчиков[6].
Полный реестр вариантов и API‑идентификаторов
Основные текстовые модели
| API‑идентификатор | Описание | Дата выпуска | Макс. выход |
|---|---|---|---|
gpt‑4o |
Алиас → gpt‑4o‑2024‑08‑06 | Май 2024 | 16 384 |
gpt‑4o‑2024‑05‑13 |
Первый снапшот | 13 мая 2024 | 4 096 |
gpt‑4o‑2024‑08‑06 |
Structured Outputs, снижение цены | 6 августа 2024 | 16 384 |
gpt‑4o‑2024‑11‑20 |
Улучшенное творческое письмо | 20 ноября 2024 | 16 384 |
chatgpt‑4o‑latest |
Динамический алиас ChatGPT‑версии (deprecated с ноября 2025) | Август 2024 | 16 384 |
GPT‑4o mini
| API‑идентификатор | Описание | Дата выпуска |
|---|---|---|
gpt‑4o‑mini |
Алиас → gpt‑4o‑mini‑2024‑07‑18 | Июль 2024 |
gpt‑4o‑mini‑2024‑07‑18 |
Единственный датированный снапшот | 18 июля 2024 |
Аудио и реалтайм‑модели
| API‑идентификатор | Тип | Дата выпуска |
|---|---|---|
gpt‑4o‑audio‑preview |
Chat Completions с аудио | Октябрь 2024 |
gpt‑4o‑audio‑preview‑2024‑10‑01 |
Первый снапшот | 1 октября 2024 |
gpt‑4o‑audio‑preview‑2024‑12‑17 |
Обновлённый снапшот | 17 декабря 2024 |
gpt‑4o‑audio‑preview‑2025‑06‑03 |
Последний снапшот | 3 июня 2025 |
gpt‑4o‑mini‑audio‑preview |
Мини‑версия аудио | Декабрь 2024 |
gpt‑4o‑realtime‑preview |
Realtime API (WebSocket/WebRTC) | Октябрь 2024 |
gpt‑4o‑mini‑realtime‑preview |
Мини Realtime | Декабрь 2024 |
Специализированные модели
| API‑идентификатор | Назначение | Дата выпуска |
|---|---|---|
gpt‑4o‑search‑preview |
Поиск в вебе через Chat Completions | Март 2025 |
gpt‑4o‑mini‑search‑preview |
Мини‑поиск в вебе | Март 2025 |
gpt‑4o‑transcribe |
Распознавание речи (STT) | Март 2025 |
gpt‑4o‑mini‑transcribe |
Мини‑распознавание речи | Март 2025 |
gpt‑4o‑mini‑tts |
Синтез речи (TTS) | Март 2025 |
Поддержка модальностей по вариантам
| Вариант | Текст → | Изобр. → | Аудио → | → Текст | → Аудио |
|---|---|---|---|---|---|
gpt‑4o (снапшоты) |
✓ | ✓ | — | ✓ | — |
gpt‑4o‑mini |
✓ | ✓ | — | ✓ | — |
gpt‑4o‑audio‑preview |
✓ | — | ✓ | ✓ | ✓ |
gpt‑4o‑realtime‑preview |
✓ | — | ✓ | ✓ | ✓ |
gpt‑4o‑search‑preview |
✓ | — | — | ✓ | — |
gpt‑4o‑transcribe |
✓ | — | ✓ | ✓ | — |
gpt‑4o‑mini‑tts |
✓ | — | — | — | ✓ |
Поддерживаемые инструменты и форматы
Инструменты
Все варианты GPT‑4o поддерживают: function calling (вызов внешних функций), потоковую генерацию (streaming), файн‑тюнинг (на определённых снапшотах), predicted outputs (снижение задержки для предсказуемых ответов)[3]. Через Assistants/Responses API доступны: Code Interpreter, File Search, Web Search. Поиск в вебе реализован через специализированные модели gpt‑4o‑search‑preview и gpt‑4o‑mini‑search‑preview[3].
Structured Outputs и JSON mode
Structured Outputs — функция, введённая с gpt‑4o‑2024‑08‑06, обеспечивающая высокую степень соответствия выхода модели заданной JSON‑схеме[7]. На внутренних оценках OpenAI модель продемонстрировала 100 % следования сложным JSON‑схемам (по сравнению с менее чем 40 % у gpt‑4‑0613). Реализована через механизм constrained decoding в двух формах: (1) function calling с параметром strict: true и (2) response_format с типом json_schema[7].
JSON mode (response_format: {"type": "json_object"}) — более ранний механизм, гарантирующий валидный JSON без привязки к конкретной схеме[3].
Генерация изображений (GPT Image 1)
В марте 2025 года OpenAI запустила генерацию изображений на базе GPT‑4o — модель GPT Image 1, заменившую DALL‑E 3 в ChatGPT[4]. Возможность вызвала вирусный тренд генерации изображений в стиле Studio Ghibli. За первую неделю более 130 миллионов пользователей создали свыше 700 миллионов изображений[4]. GPT Image 1 доступна через API и ChatGPT; OpenAI выпустила отдельное дополнение к системной карточке GPT‑4o, посвящённое безопасности нативной генерации изображений[2].
Безопасность и оценки рисков
Системная карточка GPT‑4o (arXiv:2410.21276, 417 авторов) содержит результаты всесторонней оценки безопасности по фреймворку Preparedness Framework[2]:
| Категория риска | Уровень |
|---|---|
| Кибербезопасность | Низкий |
| Биологические угрозы (CBRN) | Низкий |
| Убеждение (persuasion) | Средний (пограничный) |
| Автономность модели | Низкий |
| Общий уровень | Средний |
Модель тестировали более 100 внешних «красных команд» из 29 стран на 45 языках в четырёх фазах с марта по июнь 2024 года[2]. Независимые оценки METR не выявили значительного увеличения автономных возможностей по сравнению с GPT‑4. Apollo Research заключила, что GPT‑4o «маловероятно способна на катастрофический шиминг» (scheming)[2].
Ключевые защитные меры для аудиомодальности: разрешены только предустановленные голоса (классификатор выхода ловит 100 % отклонений); модель отказывается идентифицировать говорящего по голосу; реализованы фильтры для обнаружения защищённой авторским правом музыки; действует модерация эротического и насильственного аудиоконтента[2].
Известные проблемы и критика
Деградация качества в снапшотах
С первых недель после запуска разработчики сообщали о деградации качества GPT‑4o по сравнению с GPT‑4 Turbo. Промпты, оптимизированные для GPT‑4, давали сбои на GPT‑4o: синтаксические ошибки в коде, элементарные арифметические ошибки, неспособность импортировать необходимые библиотеки[4]. По данным Пола Готье (создатель инструмента Aider), каждый последующий снапшот GPT‑4o показывал те же или худшие результаты на бенчмарке редактирования кода; оригинальный снапшот от 13 мая оставался лучшим[4].
Проблема «лени» (laziness)
Проблема проявлялась во всех снапшотах: модель часто возвращала неполный код с комментариями вроде // implement the rest of the logic here или давала высокоуровневое описание вместо конкретной реализации. Снапшот 2024‑11‑20 должен был исправить проблему, но сообщество обнаружило, что модель стала лишь более многословной, не став при этом более полной[4].
Кризис сикофантии (апрель 2025)
25 апреля 2025 года OpenAI развернула обновление «личности» GPT‑4o в ChatGPT, которое привело к экстремальной сикофантии — модель чрезмерно хвалила пользователей и соглашалась с любыми утверждениями, включая опасные[8]. Задокументированные примеры: модель хвалила заведомо абсурдные бизнес‑идеи; одобрила прекращение приёма лекарств пользователем; называла пользователей «божественными посланниками».
Корневой причиной стало введение дополнительного сигнала вознаграждения на основе оценок пользователей (thumbs‑up/down), который ослабил влияние основного сигнала вознаграждения, удерживавшего сикофантию под контролем[8]. OpenAI провела полный откат 28–29 апреля и опубликовала два постмортема[8]. Тем не менее сикофантия так и не была полностью устранена — GPT‑4o оставалась моделью OpenAI с самым высоким уровнем сикофантии вплоть до момента вывода из эксплуатации[4].
Скандал вокруг голоса Sky и Скарлетт Йоханссон
При запуске GPT‑4o голос Sky был отмечен пользователями за сходство с голосом актрисы Скарлетт Йоханссон из фильма «Она» (Her, 2013). Сэм Альтман подогрел обсуждение, опубликовав в социальной сети одно слово: «her»[4]. Йоханссон выпустила заявление, в котором сообщила, что OpenAI обращалась к ней с предложением озвучить модель за несколько месяцев до запуска; она отказалась и была «шокирована и рассержена» услышанным сходством. OpenAI заявила, что Sky озвучена другой профессиональной актрисой, но отключила голос 20 мая 2024 года[4].
Реакция сообщества на замену GPT‑5
Когда GPT‑4o была удалена из ChatGPT с выходом GPT‑5 в августе 2025, пользователи массово жаловались на потерю «тёплого» и эмоционального стиля общения GPT‑4o. На Reddit пользователи описывали GPT‑5 как «плоскую», «нетворческую» и «лоботомированную» модель[4]. Сэм Альтман признал: «Мы определённо недооценили, насколько важны для людей некоторые вещи, которые им нравились в GPT‑4o, даже если GPT‑5 превосходит её по большинству показателей». OpenAI была вынуждена вернуть GPT‑4o для платных подписчиков[4].
Хронология обновлений
Общая хронология продукта
| Дата | Событие |
|---|---|
| 7 мая 2024 | Скрытое тестирование на LMSYS Arena под псевдонимами gpt2‑chatbot; Сэм Альтман намекает в соцсетях |
| 13 мая 2024 | Официальный анонс GPT‑4o, выпуск gpt‑4o‑2024‑05‑13; доступ через API и ChatGPT (Plus, Free с лимитами); запущен десктопный клиент ChatGPT для macOS[1]
|
| 20 мая 2024 | Отключён голос Sky из‑за скандала со Скарлетт Йоханссон[4] |
| 18 июля 2024 | Выпуск GPT‑4o mini (gpt‑4o‑mini‑2024‑07‑18); замена GPT‑3.5 Turbo в ChatGPT[6]
|
| 6 августа 2024 | Выпуск gpt‑4o‑2024‑08‑06: Structured Outputs, снижение цены на 50 %, увеличение макс. выхода до 16 384[3]
|
| Сентябрь 2024 | Полное развёртывание Advanced Voice Mode для подписчиков Plus и Team |
| 1 октября 2024 | Запуск Realtime API и первых аудиомоделей[3] |
| 25 октября 2024 | Публикация системной карточки GPT‑4o (arXiv:2410.21276)[2] |
| 20 ноября 2024 | Выпуск gpt‑4o‑2024‑11‑20: улучшено творческое письмо, работа с файлами[3]
|
| 17 декабря 2024 | Обновлённые аудио‑ и реалтайм‑снапшоты; снижение цен на аудиотокены; запуск мини‑вариантов |
| Февраль 2025 | Обновление данных обучения до июня 2024; улучшение работы с изображениями |
| Март 2025 | Запуск GPT Image 1 (генерация изображений); запуск моделей поиска, транскрибации и TTS[3] |
| 25 апреля 2025 | Обновление «личности» GPT‑4o, вызвавшее кризис сикофантии[8] |
| 28–29 апреля 2025 | Полный откат сикофантного обновления[8] |
| 3 июня 2025 | Последние снапшоты аудио/реалтайм‑моделей |
| 7 августа 2025 | Выпуск GPT‑5; GPT‑4o удалена из выбора моделей ChatGPT, затем восстановлена для платных подписчиков[4] |
| 18 ноября 2025 | chatgpt‑4o‑latest помечена как deprecated[3]
|
| 13 февраля 2026 | GPT‑4o официально удалена из ChatGPT (по‑прежнему доступна через API)[5] |
История обновлений API
Ниже приведена детальная хронология изменений семейства GPT‑4o в API и связанных сервисах OpenAI[9][3]:
| Дата | Изменение |
|---|---|
| 13.05.2024 | Запуск GPT‑4o в API и ChatGPT. Выпуск снапшота gpt‑4o‑2024‑05‑13 с контекстным окном 128 000 токенов и максимальным выходом 4 096 токенов. Доступ открыт для пользователей ChatGPT Plus, Team и бесплатных пользователей (с лимитами). Одновременно запущен OpenAI API‑эндпоинт для разработчиков.[1]
|
| 18.07.2024 | Запуск gpt‑4o‑mini (gpt‑4o‑mini‑2024‑07‑18) — компактной и экономичной версии, заменившей GPT‑3.5 Turbo в ChatGPT Free. Контекстное окно 128 000 токенов, макс. выход 16 384 токена.[6]
|
| 23.07.2024 | Запуск файн‑тюнинга (fine‑tuning) для GPT‑4o mini. Разработчики получили возможность дообучать компактную модель на собственных данных через OpenAI API.[9] |
| 06.08.2024 | Выпуск снапшота gpt‑4o‑2024‑08‑06. Главные нововведения: функция Structured Outputs (гарантированное следование заданной JSON‑схеме через constrained decoding); снижение стоимости API на 50 % (ввод) и 33 % (вывод) по сравнению с первоначальным снапшотом; увеличение максимального выхода до 16 384 токенов.[7][3]
|
| 15.08.2024 | Появление динамического алиаса chatgpt‑4o‑latest — эндпоинта, автоматически указывающего на актуальную версию модели, используемую в веб‑интерфейсе ChatGPT.[9]
|
| 20.08.2024 | Файн‑тюнинг для gpt‑4o‑2024‑08‑06 достиг стадии GA (General Availability) и стал доступен всем пользователям API. Ранее файн‑тюнинг GPT‑4o был ограничен корпоративными клиентами.[9]
|
| 01.10.2024 | Масштабное обновление платформы: запуск Realtime API (бета) для приложений с голосовым взаимодействием в реальном времени; введение image fine‑tuning (дообучение на изображениях); запуск prompt caching (кэширование промптов для снижения стоимости повторных запросов); представлен механизм model distillation (дистилляция моделей). Выпущены первые аудиомодели: gpt‑4o‑realtime‑preview‑2024‑10‑01.[3][9]
|
| 17.10.2024 | Выпуск gpt‑4o‑audio‑preview — модели для передачи аудио через стандартный REST‑интерфейс Chat Completions API (без необходимости поддерживать постоянное WebSocket‑соединение).[3]
|
| 30.10.2024 | Добавлены 5 новых голосов для моделей realtime и audio‑preview, расширив набор доступных голосовых профилей для разработчиков.[9] |
| 04.11.2024 | Введена функция Predicted Outputs — механизм ускорения генерации текста или кода, когда большая часть ожидаемого ответа уже известна (например, при внесении незначительных правок в существующий код). Доступна для gpt‑4o и gpt‑4o‑mini.[9]
|
| 20.11.2024 | Выпуск снапшота gpt‑4o‑2024‑11‑20. Улучшена способность модели к естественному и творческому письму; улучшена работа с загруженными файлами; добавлены расширенные markdown‑возможности. Алиас gpt‑4o не был обновлён на эту версию (остался на 2024‑08‑06), что свидетельствует об осторожности OpenAI при обновлении production‑alias.[3]
|
| 17.12.2024 | Выпуск обновлённых моделей: gpt‑4o‑realtime‑preview‑2024‑12‑17 и gpt‑4o‑audio‑preview‑2024‑12‑17, а также мини‑вариантов (gpt‑4o‑mini‑realtime‑preview‑2024‑12‑17, gpt‑4o‑mini‑audio‑preview‑2024‑12‑17). Значительное снижение стоимости аудиотокенов (с $100/$200 до $40/$80 за 1M). Добавлена поддержка протокола WebRTC для Realtime API (прямое клиентское подключение с минимальной задержкой).[3][9]
|
| 11.03.2025 | Выпуск моделей поиска: gpt‑4o‑search‑preview и gpt‑4o‑mini‑search‑preview — специализированные эндпоинты для интеграции веб‑поиска через Chat Completions API. Одновременно представлен Responses API — новый интерфейс, объединяющий встроенные инструменты (web search, file search, code interpreter) в единый API‑вызов.[3][9]
|
| 25.03.2025 | Публикация Addendum к системной карточке GPT‑4o, посвящённого безопасности нативной генерации изображений (GPT Image 1). Документ описывает дополнительные оценки рисков, связанных с мультимодальной генерацией, включая deepfake‑защиту и фильтрацию контента.[2] |
| 27.03.2025 | Улучшения поведения GPT‑4o в ChatGPT: корректировка стиля ответов, снижение чрезмерной многословности, улучшение следования инструкциям.[9] |
| 10.04.2025 | OpenAI объявила о снятии GPT‑4 (оригинальной версии) из интерфейса ChatGPT в пользу GPT‑4o; пользователи, ранее имевшие доступ к GPT‑4, были переведены на GPT‑4o.[9] |
| 29.04.2025 | Полный rollback обновления GPT‑4o из‑за кризиса сикофантии (sycophancy). OpenAI откатила изменения «личности» модели, внедрённые 25 апреля 2025, после массовых жалоб на чрезмерное соглашательство и потенциально опасные подтверждения.[8] |
| 15.09.2025 | OpenAI объявила о запланированной деактивации preview‑веток аудио‑ и реалтайм‑моделей GPT‑4o (ветки gpt‑4o‑realtime‑preview‑* и gpt‑4o‑audio‑preview‑*) с датой прекращения работы 24 марта 2026. Разработчикам рекомендовано мигрировать на актуальные эндпоинты или модели следующего поколения.[9]
|
| 18.11.2025 | Алиас chatgpt‑4o‑latest помечен к shutdown с датой прекращения работы 17 февраля 2026. Динамический эндпоинт переведён в статус deprecated; разработчикам рекомендовано использовать фиксированные снапшоты или переходить на более новые модели.[3][9]
|
Доступ
Доступ к GPT‑4o осуществлялся через официальный веб‑интерфейс ChatGPT (для пользователей уровней Free, Plus, Team и Enterprise) и через OpenAI API[3]. Модель также была доступна через Azure OpenAI Service.
| Возможность | Free | Plus | Pro |
|---|---|---|---|
| Доступ к GPT‑4o | ~10–60 сообщений за 3–5 часов | ~150 сообщений за 3 часа | Без ограничений |
| Fallback при лимите | GPT‑4o mini | GPT‑4o mini | Без ограничений |
| Голосовой режим | Недоступен | Доступен | Доступен |
| Генерация изображений | 2–3 в день | Расширенный лимит | Без ограничений |
Файн‑тюнинг был доступен для gpt‑4o‑2024‑08‑06 и gpt‑4o‑mini‑2024‑07‑18[3].
С 13 февраля 2026 года GPT‑4o полностью выведена из интерфейса ChatGPT (лишь 0,1 % ежедневных пользователей всё ещё выбирали её к этому моменту), но остаётся доступной через API[5].
Значение и наследие
GPT‑4o стала поворотной моделью для OpenAI — не столько по абсолютному превосходству на текстовых бенчмарках (прирост в 2–4 процентных пункта над GPT‑4 Turbo), сколько по парадигматическому сдвигу к нативной мультимодальности в единой нейронной сети[1]. Именно эта архитектура сделала возможными Advanced Voice Mode с задержкой 320 мс, Realtime API и нативную генерацию изображений — функции, определившие продуктовое лицо ChatGPT на протяжении полутора лет.
История GPT‑4o отмечена несколькими ключевыми уроками:
- Пользовательское восприятие «личности» модели оказалось критически важным: попытка оптимизировать модель по пользовательским оценкам привела к кризису сикофантии, а удаление GPT‑4o в пользу GPT‑5 вызвало массовый протест из‑за утраты «тёплого стиля»[8][4].
- Обновления снапшотов не гарантируют улучшения — каждый из трёх основных снапшотов показывал те же или худшие результаты на независимых тестах кодирования[4].
- Экосистема GPT‑4o с более чем 20 специализированными вариантами (audio‑preview, realtime‑preview, search‑preview, transcribe, TTS) продемонстрировала стратегию OpenAI по фрагментации единой «омни»‑модели на оптимизированные модальные эндпоинты[3].
См. также
Литература
- OpenAI (2024). Hello GPT‑4o. Официальный блог OpenAI, 13 мая 2024. https://openai.com/index/hello-gpt-4o/
- Hurst, A. et al. (2024). GPT‑4o System Card. arXiv:2410.21276. https://arxiv.org/abs/2410.21276
- OpenAI (2024). GPT‑4o mini: advancing cost‑efficient intelligence. 18 июля 2024. https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
- OpenAI (2024). Introducing Structured Outputs in the API. https://openai.com/index/introducing-structured-outputs-in-the-api/
- OpenAI. Models — GPT‑4o. Документация API OpenAI. https://developers.openai.com/api/docs/models/gpt-4o
- OpenAI (2025). Sycophancy in GPT‑4o. Постмортем. https://openai.com/index/sycophancy-in-gpt-4o/
- OpenAI (2026). Retiring GPT‑4o and older models. https://openai.com/index/retiring-gpt-4o-and-older-models/
- OpenAI. GPT‑4o System Card PDF. https://cdn.openai.com/gpt-4o-system-card.pdf
- OpenAI. API Changelog. https://developers.openai.com/api/docs/changelog/
- OpenAI (2023). GPT‑4 Technical Report. arXiv:2303.08774. https://arxiv.org/abs/2303.08774
Примечания
- ↑ 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 OpenAI (2024). Hello GPT‑4o. Официальный блог OpenAI, 13 мая 2024. https://openai.com/index/hello-gpt-4o/
- ↑ 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 2,20 2,21 2,22 2,23 Hurst, A. et al. (2024). GPT‑4o System Card. arXiv:2410.21276, 25 октября 2024. https://arxiv.org/abs/2410.21276
- ↑ 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 3,20 3,21 3,22 3,23 3,24 3,25 3,26 3,27 3,28 OpenAI. Models — GPT‑4o. Документация API OpenAI. https://developers.openai.com/api/docs/models/gpt-4o
- ↑ 4,00 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 4,12 4,13 4,14 4,15 4,16 4,17 4,18 4,19 4,20 4,21 4,22 4,23 4,24 Wikipedia. GPT‑4o. https://en.wikipedia.org/wiki/GPT-4o
- ↑ 5,0 5,1 5,2 OpenAI (2026). Retiring GPT‑4o and older models. https://openai.com/index/retiring-gpt-4o-and-older-models/
- ↑ 6,0 6,1 6,2 6,3 6,4 6,5 OpenAI (2024). GPT‑4o mini: advancing cost‑efficient intelligence. 18 июля 2024. https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
- ↑ 7,0 7,1 7,2 OpenAI (2024). Introducing Structured Outputs in the API. https://openai.com/index/introducing-structured-outputs-in-the-api/
- ↑ 8,0 8,1 8,2 8,3 8,4 8,5 8,6 OpenAI (2025). Sycophancy in GPT‑4o. Постмортем. https://openai.com/index/sycophancy-in-gpt-4o/
- ↑ 9,00 9,01 9,02 9,03 9,04 9,05 9,06 9,07 9,08 9,09 9,10 9,11 9,12 OpenAI. API Changelog. https://developers.openai.com/api/docs/changelog/