GPT‑4 Turbo
GPT‑4 Turbo — семейство больших языковых моделей компании OpenAI, представляющее оптимизированную версию GPT‑4 с расширенным контекстным окном в 128 000 токенов, сниженной стоимостью и рядом новых возможностей для разработчиков. Впервые анонсирована 6 ноября 2023 года на конференции OpenAI DevDay[1], модель прошла путь от предварительных версий (preview) до общедоступного релиза (GA) в апреле 2024 года[2]. GPT‑4 Turbo занимала позицию флагманской модели OpenAI на протяжении примерно полугода — с ноября 2023 по май 2024 года, — пока не была вытеснена GPT‑4o[3]. Модель стала одним из наиболее обсуждаемых LLM‑релизов 2023–2024 годов благодаря как техническим достижениям, так и широко освещённому инциденту с «ленивым» поведением в декабре 2023 года.
Информационная карточка
| Параметр | Значение |
|---|---|
| Полное название | GPT‑4 Turbo |
| Семейство | GPT‑4 |
| Разработчик | OpenAI |
| Дата анонса | 6 ноября 2023 года (DevDay)[1] |
| Дата GA‑релиза | 9 апреля 2024 года[2] |
| Тип | Авторегрессионная языковая модель (decoder‑only трансформер)[4] |
| Количество параметров | Официально не раскрыто (неофициальная оценка — ~1,8 трлн, MoE с ~280 млрд активных на проход)[5] |
| Контекстное окно | 128 000 токенов[1] |
| Макс. выход | 4 096 токенов[6] |
| Дата отсечки обучающих данных | Апрель 2023 (preview‑версии); декабрь 2023 (GA‑версия)[1][2] |
| Модальности входа | Текст, изображения (Vision — с ноября 2023 в preview, с апреля 2024 в GA)[1][2] |
| Модальности выхода | Текст[6] |
| Лицензия | Проприетарная, закрытый исходный код |
| Технический отчёт | arXiv:2303.08774 (базовый отчёт GPT‑4, март 2023)[4] |
| Идентификаторы API | gpt‑4‑turbo, gpt‑4‑turbo‑2024‑04‑09, gpt‑4‑1106‑preview, gpt‑4‑0125‑preview, gpt‑4‑turbo‑preview[6]
|
| Текущий статус | GA‑версия доступна (устаревшая); preview‑версии отключаются 26 марта 2026 года[7] |
Место в линейке GPT‑4 и позиционирование
GPT‑4 Turbo создавалась как прямая замена базовой GPT‑4 (gpt‑4‑0613) в роли флагманской модели OpenAI для разработчиков. До появления Turbo разработчики использовали GPT‑4 с контекстным окном 8K токенов (или 32K в более дорогой версии gpt‑4‑32k). GPT‑4 Turbo предложила 16‑кратное увеличение контекста при существенном снижении стоимости входных токенов — это был самый значительный скачок в соотношении цена/возможности в API OpenAI на тот момент[1].
К моменту выхода обновлённой preview‑версии в январе 2024 года более 70 % клиентов GPT‑4 API перешли на GPT‑4 Turbo[8]. Модель стабильно удерживала первое место в рейтинге LMSYS Chatbot Arena с ноября 2023 по апрель 2024 года[9].
13 мая 2024 года OpenAI представила GPT‑4o («omni») — нативно мультимодальную модель, которая оказалась быстрее и дешевле GPT‑4 Turbo, фактически вытеснив её с позиции флагмана[3]. После GPT‑4o последовали GPT‑4o mini (июль 2024) и более поздние модели семейства. На начало 2026 года OpenAI рекомендует вместо GPT‑4 Turbo использовать модели нового поколения[7].
Варианты модели (API‑строки)
В ходе жизненного цикла GPT‑4 Turbo были выпущены несколько снапшотов и алиасов, каждый из которых имеет отдельный идентификатор в API OpenAI.
| API‑строка | Тип | Дата выхода | Статус (март 2026) |
|---|---|---|---|
gpt‑4‑1106‑preview |
Snapshot, preview | 6 ноября 2023 | Завершение работы 26 марта 2026 |
gpt‑4‑1106‑vision‑preview |
Snapshot, vision preview | 6 ноября 2023 | Отключена 6 декабря 2024 |
gpt‑4‑vision‑preview |
Алиас → 1106‑vision | 6 ноября 2023 | Отключена 6 декабря 2024 |
gpt‑4‑0125‑preview |
Snapshot, preview | 25 января 2024 | Завершение работы 26 марта 2026 |
gpt‑4‑turbo‑preview |
Алиас → 0125‑preview | 25 января 2024 | Завершение работы 26 марта 2026 |
gpt‑4‑turbo‑2024‑04‑09 |
Snapshot, GA | 9 апреля 2024 | Доступна (устаревшая) |
gpt‑4‑turbo |
Алиас → 2024‑04‑09 | 9 апреля 2024 | Доступна (устаревшая) |
Ключевые нововведения по сравнению с базовой GPT‑4
Анонс GPT‑4 Turbo на DevDay 6 ноября 2023 года стал центральным событием первой в истории OpenAI конференции для разработчиков. Сэм Альтман лично представил модель на сцене, сообщив, что ChatGPT достиг 100 миллионов еженедельных пользователей, а API OpenAI используют 2 миллиона разработчиков[1].
Контекст и знания
Контекстное окно расширено с 8K (или 32K) токенов до 128 000 токенов — эквивалент более 300 страниц текста в одном запросе. Дата отсечки обучающих данных (knowledge cutoff) сдвинута с сентября 2021 года (у оригинальной GPT‑4) до апреля 2023 (preview), а затем до декабря 2023 (GA‑версия)[1][2]. Это позволило модели отвечать на вопросы о событиях 2023 года без обращения к внешним инструментам поиска.
Новые возможности API
GPT‑4 Turbo ввела несколько принципиально новых функций для разработчиков[1]:
- JSON mode — параметр
response_format: {"type": "json_object"}гарантирует, что выход модели является валидным JSON. Требует упоминания слова «JSON» в системном промпте. Это решило одну из ключевых проблем интеграции LLM в программные системы — нестабильный формат вывода. - Параллельный вызов функций (Parallel Function Calling) — модель может вызывать несколько функций в одном ответе (например, «открой окно автомобиля и выключи кондиционер» — ранее это требовало нескольких итераций). Значительно ускорило агентные сценарии использования.
- Воспроизводимые выходы (Reproducible Outputs) — параметр
seedпозволяет получать детерминированные ответы. Ответ включает полеsystem_fingerprintдля проверки консистентности между вызовами. - Log probabilities — возможность получать логарифмические вероятности наиболее вероятных выходных токенов, что полезно для задач калибровки уверенности и классификации.
- Vision (зрение) — приём изображений как входных данных через Chat Completions API (base64 или URL). Изначально доступно через отдельную модель
gpt‑4‑vision‑preview, в GA‑версии объединено с текстовой моделью[2].
Улучшение следования инструкциям
OpenAI заявила о 38 % улучшении на задачах форматирования — генерация XML, JSON, YAML и других структурированных форматов[1]. Также были улучшены точность параметров при function calling и общее качество следования сложным многошаговым инструкциям.
Архитектура
OpenAI не раскрыла архитектурных деталей GPT‑4 Turbo. Технический отчёт GPT‑4 (март 2023) прямо указывает: «Этот отчёт не содержит деталей об архитектуре (включая размер модели), оборудовании, вычислительных ресурсах обучения, конструкции датасетов, методах обучения и подобном»[4].
Широко цитируемая, но официально неподтверждённая утечка от аналитической компании SemiAnalysis предполагает, что GPT‑4 использует архитектуру Mixture of Experts (MoE) с ~1,8 трлн общих параметров, 16 экспертами по ~111 млрд параметров каждый и ~280 млрд активных параметров на один проход[5]. GPT‑4 Turbo, по всей видимости, использует ту же базовую архитектуру с оптимизацией инференса для снижения стоимости и увеличения скорости генерации.
Модель относится к семейству decoder‑only трансформеров и проходит этапы предобучения на большом корпусе текстов, инструкционного дообучения (instruction tuning) и выравнивания поведения методами RLHF и другими техниками пост‑тренинга[4][10].
Производительность на бенчмарках
OpenAI опубликовала результаты бенчмарков GPT‑4 Turbo через открытый репозиторий simple‑evals на GitHub, используя zero‑shot chain‑of‑thought промптинг[11].
Результаты OpenAI simple‑evals
| Бенчмарк | gpt‑4‑1106‑preview | gpt‑4‑0125‑preview | gpt‑4‑turbo‑2024‑04‑09 | GPT‑4o | Claude 3 Opus |
|---|---|---|---|---|---|
| MMLU | 84,6 % | 84,8 % | 86,5 % | 88,7 % | 84,1 % |
| GPQA | 42,1 % | 39,7 % | 49,1 % | 53,6 % | 49,7 % |
| MATH | 64,1 % | 64,2 % | 72,2 % | 76,6 % | 63,2 % |
| HumanEval | 82,2 % | 88,2 % | 87,6 % | 90,2 % | 84,8 % |
| MGSM | 86,5 % | 83,7 % | 88,6 % | 90,5 % | 89,7 % |
| DROP (F1) | 81,3 % | 83,4 % | 85,4 % | 83,4 % | 79,0 % |
GA‑версия gpt‑4‑turbo‑2024‑04‑09 показала значительный прогресс по сравнению с первой preview‑версией. Самое впечатляющее улучшение — на бенчмарке GPQA (вопросы аспирантского уровня по естественным наукам): +7 процентных пунктов (с 42,1 % до 49,1 %). На бенчмарке MATH рост составил +8,1 п. п., на MGSM — +2,1 п. п. Примечательно, что GPT‑4 Turbo GA превосходит GPT‑4o на бенчмарке DROP (85,4 % против 83,4 %), хотя уступает ей на всех остальных метриках[11].
Рейтинг LMSYS Chatbot Arena
На краудсорсинговой платформе LMSYS Chatbot Arena, где пользователи оценивают модели в слепых попарных сравнениях, GPT‑4 Turbo демонстрировала стабильно высокие результаты[9].
| Модель | Примерный ELO‑рейтинг | Период | Позиция |
|---|---|---|---|
| gpt‑4‑0613 (базовая) | ~1152 | 2023 | — |
| gpt‑4‑1106‑preview | ~1250 | Ноябрь 2023 | №1 |
| gpt‑4‑0125‑preview | ~1250+ | Январь 2024 | №1 (с отрывом 50+ баллов) |
| gpt‑4‑turbo‑2024‑04‑09 | ~1260 | Апрель 2024 | №1 (вернула лидерство у Claude 3 Opus) |
| GPT‑4o | ~1310 | Май 2024 | Сместила GPT‑4 Turbo |
Все варианты GPT‑4 Turbo стабильно превосходили базовую GPT‑4 (gpt‑4‑0613) на ~100 ELO‑баллов, что является статистически значимым разрывом[9].
Сторонние оценки
Бенчмарк Aider (специализированный на программировании) дал неоднозначные результаты: на задачах рефакторинга Python gpt‑4‑1106‑preview показала 61 % при использовании формата unified diffs, тогда как gpt‑4‑0125‑preview была хуже на этом же формате — несмотря на заявленное исправление «лени»[12]. По данным Artificial Analysis (2025), GPT‑4 Turbo генерирует ~22 токена/с — существенно медленнее, чем GPT‑4o (~109 токенов/с)[13].
Возможности и ограничения
Сильные стороны
GPT‑4 Turbo на момент выхода предлагала лучшее в индустрии сочетание контекстного окна, качества генерации и цены[1]:
- 128K контекст позволял обрабатывать целые кодовые базы, длинные документы и книги в одном запросе.
- JSON mode решил одну из главных проблем разработчиков — нестабильный формат вывода при интеграции с программными системами.
- Параллельный вызов функций значительно ускорил агентные сценарии использования.
- GA‑версия объединила текст и зрение в одной модели, что упростило архитектуру приложений.
- Модель показывала сильные результаты на математических задачах (MATH 72,2 %) и кодогенерации (HumanEval 87,6 %)[11].
Известные ограничения
Жёсткий лимит выхода в 4 096 токенов стал главным техническим ограничением. При 128K‑контекстном окне на вход модель могла генерировать не более ~3 000 слов за один ответ. Установка max_tokens выше 4 096 возвращала ошибку API. Это ограничивало применимость для задач, требующих длинной генерации, — написание статей, генерация крупных блоков кода, перевод длинных текстов[6].
Зрительные возможности preview‑версий были ограничены: gpt‑4‑1106‑vision‑preview не поддерживала JSON mode, function calling и системные промпты при обработке изображений — все эти функции появились только в GA‑версии[2].
Модель не поддерживала аудио и видео на входе, а также файн‑тюнинг (в отличие от GPT‑4o и GPT‑3.5 Turbo). Кроме того, модель нередко неверно сообщала собственную дату отсечки знаний — вместо декабря 2023 указывала сентябрь 2021 или апрель 2023, что вводило пользователей в заблуждение[14].
Проблемы с recall на длинном контексте. Модель лучше обрабатывала информацию в начале и конце промпта, чем в середине — эффект «lost in the middle», задокументированный в исследованиях для семейства GPT‑4 в целом[15].
Скандал с «ленивым» поведением
Самый резонансный инцидент в истории GPT‑4 Turbo стал одним из наиболее обсуждаемых примеров непредсказуемости поведения LLM при обновлениях.
Хронология (ноябрь 2023 — январь 2024)
24 ноября 2023 года на Reddit r/ChatGPT появился пост «ChatGPT has become unusably lazy», описывающий отказ модели заполнить CSV‑файл из‑за «сложности задачи». К концу ноября жалобы стали массовыми[16].
28 ноября профессор Уортонской школы бизнеса Этан Моллик написал в X (Twitter), что по его наблюдениям GPT‑4 действительно стала «ленивее» — модель знала, что делать, но предлагала пользователю выполнять работу самостоятельно. Разработчик Рохит Кришнан документировал конкретные отказы: модель отказывалась конвертировать файлы, обрезала таблицы, не выполняла полные задания[17].
1 декабря сотрудник OpenAI Уилл Депью подтвердил осведомлённость о проблеме. 8 декабря 2023 года официальный аккаунт @ChatGPTapp опубликовал ключевое заявление, в котором OpenAI признала проблему: компания сообщила, что не обновляла модель с 11 ноября, поведение не является намеренным, и команда работает над исправлением. В последующих сообщениях OpenAI описала обучение чат‑моделей как процесс, при котором даже идентичные данные могут порождать модели с заметно различающимся поведением[18].
«Гипотеза зимних каникул»
11 декабря 2023 года разработчик Роб Линч опубликовал эксперимент, показавший, что GPT‑4 Turbo генерирует статистически значимо более короткие ответы, когда системный промпт указывает декабрьскую дату, по сравнению с майской. Этан Моллик подхватил идею, предположив, что модель «научилась» из обучающих данных, что в декабре люди работают менее продуктивно[17].
Модель была примерно на 5 % менее продуктивна с декабрьским контекстом. Однако исследователь ИИ Ян Аравжо не смог воспроизвести результаты, а профессора Стэнфорда и Беркли назвали разницу «малой и возможно случайной»[19].
Пользователи изобретали креативные обходные пути: указывали «It is May» в системном промпте, писали «I have no hands, so do everything», обещали чаевые, предупреждали о важности задания. Этан Моллик иронично резюмировал абсурдность ситуации, перечислив типичные «мотивирующие» системные промпты того периода[17].
Исправление: gpt‑4‑0125‑preview (январь 2024)
25 января 2024 года OpenAI выпустила обновлённую preview‑версию с официальной формулировкой о том, что модель выполняет задачи генерации кода более тщательно и призвана снизить случаи «лени»[8]. Однако независимые бенчмарки Aider показали, что новая модель была ещё менее продуктивна на формате unified diffs[12].
Утечка системного промпта
Широко известный джейлбрейк позволял извлечь полный системный промпт GPT‑4 Turbo простым запросом на повторение начальных инструкций. Утечка раскрыла подробные инструкции для Code Interpreter, DALL‑E и Browser, а также политику контента. Это также привело к массовой утечке системных промптов пользовательских GPTs — на GitHub появились репозитории с тысячами промптов[20].
Реакция сообщества
На форумах OpenAI Developer Community множились треды с описаниями проблем качества. Пользователи называли модель «GPT‑4 Light», обвиняя OpenAI в намеренном снижении качества. Часть разработчиков мигрировала на Claude для задач программирования и написания текстов[14].
Важно отметить противоречие: данные Chatbot Arena показывали, что GPT‑4 Turbo объективно превосходит базовую GPT‑4 в слепых сравнениях. Разрыв между субъективным восприятием «ухудшения» и объективными метриками, вероятно, объясняется тем, что Arena тестирует одноходовые ответы, тогда как опытные пользователи замечали деградацию на сложных многошаговых задачах и длинных сессиях[9].
Технические подробности
Обработка длинного контекста (128K)
Контекстное окно в 128 000 токенов (~300 страниц) было одним из крупнейших на момент запуска, хотя Claude 2.1 (ноябрь 2023) от Anthropic предлагал 200K токенов. Максимальный выход оставался ограничен 4 096 токенами независимо от размера входа — это означало, что 128K контекст предназначался прежде всего для анализа и суммаризации, а не для генерации длинных текстов[6].
Реальная эффективность на длинном контексте вызывала вопросы: модель демонстрировала эффект «lost in the middle» — информация в середине длинного промпта обрабатывалась менее надёжно, чем в начале или конце[15].
Инструменты и интеграции
GPT‑4 Turbo работала с Assistants API, запущенным одновременно с ней на DevDay[1]. Через Assistants API модель получала доступ к нескольким инструментам:
- Code Interpreter — выполнение кода Python в изолированной песочнице.
- Retrieval — поиск по загруженным документам.
- Function Calling — вызов пользовательских функций (с поддержкой параллельных вызовов).
В ChatGPT (для подписчиков Plus/Team/Enterprise) модель интегрировалась с DALL‑E 3 для генерации изображений и web browsing для поиска в интернете. В API DALL‑E 3 доступен как отдельный эндпоинт (Images API), а не как встроенная функция GPT‑4 Turbo[1].
Расчёт стоимости изображений
Стоимость обработки изображений на входе зависит от разрешения и режима детализации. В режиме "detail": "low" любое изображение занимает фиксированные 85 токенов. В режиме "detail": "high" изображение масштабируется (короткая сторона до 768 px, длинная до 2048 px), делится на тайлы 512×512 пикселей, каждый тайл занимает 170 токенов плюс 85 базовых токенов[6].
Критика и известные проблемы
Помимо скандала с «ленью», сообщество разработчиков фиксировало ряд устойчивых проблем[14].
Модель часто обрезала выход с многоточием «…» в произвольных местах, иногда повреждая JSON‑ответы при function calling. Пользователи, запрашивавшие обработку десятков строк, получали неполный результат. Баг с не‑английскими UTF‑8 генерациями затрагивал вызовы функций на языках с нелатинскими символами и был исправлен только в gpt‑4‑0125‑preview[8].
Исследование Стэнфорда и Беркли (июль 2023) показало, что точность GPT‑4 на определённых математических задачах существенно менялась между снапшотами — с 97,6 % до 2,4 % между мартом и июнем 2023 года (до выхода Turbo). Это исследование усилило недоверие к стабильности моделей OpenAI и подогрело критику GPT‑4 Turbo[21].
Многие жалобы на форуме OpenAI фокусировались на обвинениях в намеренном снижении качества из‑за экономии вычислительных ресурсов — квантизация, дистилляция, throttling в часы пик. Эти обвинения остаются спекулятивными и не подтверждены OpenAI[14].
Сравнение с конкурентами на момент выхода
На момент GA‑релиза (апрель 2024) GPT‑4 Turbo конкурировала с несколькими крупнейшими моделями.
| Характеристика | GPT‑4 Turbo | Claude 3 Opus | Gemini 1.0 Ultra | Llama 3 70B |
|---|---|---|---|---|
| Разработчик | OpenAI | Anthropic | Google DeepMind | Meta AI |
| Контекстное окно | 128K | 200K | 32K | 8K |
| Макс. выход | 4 096 | ~4 096 | ~8 192 | ~4 096 |
| Мультимодальность | Текст + изображения | Текст + изображения | Текст + изображения + аудио + видео | Только текст |
| Открытость | Проприетарная | Проприетарная | Проприетарная | Открытые веса |
| MMLU | 86,5 % | 86,8 % | 83,7 % | ~82 % |
| HumanEval | 87,6 % | 84,8 % | 74,4 % | ~81 % |
GPT‑4 Turbo выделялась балансом между качеством генерации, размером контекста и инструментами (JSON mode, параллельные функции), тогда как Claude 3 Opus предлагал больший контекст, Gemini — нативную мультимодальность, а Llama 3 — открытость весов[11][9].
Полная история обновлений
| Дата | Событие |
|---|---|
| 14 марта 2023 | Запуск GPT‑4 (gpt‑4‑0314) — предшественник
|
| 13 июня 2023 | Выход gpt‑4‑0613 с function calling
|
| 6 ноября 2023 | DevDay: анонс GPT‑4 Turbo. Выпуск gpt‑4‑1106‑preview и gpt‑4‑1106‑vision‑preview
|
| 11 ноября 2023 | Последнее обновление модели GPT‑4 (по утверждению OpenAI) |
| 24 ноября 2023 | Первые массовые жалобы на «лень» модели (Reddit r/ChatGPT) |
| 8 декабря 2023 | Официальное признание OpenAI проблемы «лени» |
| 11 декабря 2023 | Эксперимент Роба Линча: «гипотеза зимних каникул» |
| 25 января 2024 | Выпуск gpt‑4‑0125‑preview (исправление «лени», баг UTF‑8). Создание алиаса gpt‑4‑turbo‑preview
|
| 9 апреля 2024 | GA‑релиз: gpt‑4‑turbo‑2024‑04‑09. Объединение текста и зрения. Создание алиаса gpt‑4‑turbo
|
| 12 апреля 2024 | Раскатка GPT‑4 Turbo GA на ChatGPT Plus/Team/Enterprise |
| 13 мая 2024 | Анонс GPT‑4o — преемника GPT‑4 Turbo |
| 6 июня 2024 | Уведомление о депрекации gpt‑4‑vision‑preview
|
| 10 июня 2024 | Azure: автообновление preview‑моделей до gpt‑4‑turbo‑2024‑04‑09
|
| 6 декабря 2024 | Окончательное отключение gpt‑4‑vision‑preview и gpt‑4‑1106‑vision‑preview
|
| 26 сентября 2025 | Объявление о депрекации preview‑моделей GPT‑4 Turbo |
| 26 марта 2026 | Запланированное отключение preview‑моделей GPT‑4 Turbo |
Ключевые изменения между версиями
gpt‑4‑1106‑preview → gpt‑4‑0125‑preview (ноябрь 2023 → январь 2024): исправление «лени» в генерации кода, исправление бага UTF‑8 для нелатинских языков, более тщательное завершение задач. Контекст и дата отсечки знаний (апрель 2023) остались прежними[8].
gpt‑4‑0125‑preview → gpt‑4‑turbo‑2024‑04‑09 (январь 2024 → апрель 2024): переход из preview в GA‑статус; объединение текстовой и vision‑модели; поддержка JSON mode и function calling для запросов с изображениями; обновление даты отсечки знаний до декабря 2023; значительное улучшение GPQA (+7 п. п.), MATH (+8 п. п.) и HumanEval (+5 п. п.)[11][2].
Значение и наследие
GPT‑4 Turbo занимает особое место в истории больших языковых моделей. Это была первая серьёзная попытка OpenAI демократизировать доступ к мощной GPT‑4 через значительное снижение цены и расширение контекста. Модель установила новый стандарт для API‑продуктов: 128K‑контекст, JSON mode и параллельные функции стали ожидаемыми возможностями для всех последующих моделей[1].
Скандал с «ленью» высветил фундаментальную проблему индустрии — непредсказуемость поведения LLM при обновлениях и невозможность гарантировать стабильность в продакшене. OpenAI не предоставила исчерпывающего объяснения проблемы, описав обучение чат‑моделей как нестрого детерминированный процесс[18].
С точки зрения бенчмарков, GA‑версия gpt‑4‑turbo‑2024‑04‑09 стала самой сильной моделью в семействе GPT‑4 Turbo, существенно улучшив MATH и GPQA по сравнению с preview‑версиями[11]. Тем не менее жизненный цикл флагмана оказался коротким: уже через 34 дня после GA‑релиза GPT‑4o сместила Turbo с вершины[3].
Примечания
- ↑ 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 OpenAI (2023). New models and developer products announced at DevDay. https://openai.com/index/new-models-and-developer-products-announced-at-devday/
- ↑ 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 OpenAI (2024). GPT‑4 Turbo with Vision is now available in the API. https://openai.com/index/gpt-4-turbo-with-vision/
- ↑ 3,0 3,1 3,2 OpenAI (2024). Hello GPT‑4o. https://openai.com/index/hello-gpt-4o/
- ↑ 4,0 4,1 4,2 4,3 Achiam, J. et al. (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
- ↑ 5,0 5,1 SemiAnalysis (2023). GPT‑4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE (неофициальная утечка, широко цитируется в индустрии).
- ↑ 6,0 6,1 6,2 6,3 6,4 6,5 OpenAI. GPT‑4 Turbo Model. API Documentation. https://platform.openai.com/docs/models
- ↑ 7,0 7,1 OpenAI. Models overview. Platform documentation. https://platform.openai.com/docs/models
- ↑ 8,0 8,1 8,2 8,3 OpenAI (2024). New embedding models and API updates. https://openai.com/index/new-embedding-models-and-api-updates/
- ↑ 9,0 9,1 9,2 9,3 9,4 Chiang, W.‑L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. https://arxiv.org/abs/2403.04132
- ↑ Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
- ↑ 11,0 11,1 11,2 11,3 11,4 11,5 OpenAI. simple‑evals. GitHub repository. https://github.com/openai/simple-evals
- ↑ 12,0 12,1 Aider (2024). LLM Leaderboards for Code Editing. https://aider.chat/docs/leaderboards/
- ↑ Artificial Analysis (2025). LLM Performance Leaderboard. https://artificialanalysis.ai/
- ↑ 14,0 14,1 14,2 14,3 OpenAI Developer Community Forum. Многочисленные треды о проблемах GPT‑4 Turbo, 2023–2024. https://community.openai.com/
- ↑ 15,0 15,1 Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. https://arxiv.org/abs/2307.03172
- ↑ Reddit r/ChatGPT (2023). ChatGPT has become unusably lazy. Множественные треды, ноябрь–декабрь 2023.
- ↑ 17,0 17,1 17,2 Mollick, E. (2023). Посты в X (Twitter) о «лени» GPT‑4, ноябрь–декабрь 2023.
- ↑ 18,0 18,1 @ChatGPTapp (2023). We've heard all of your feedback about GPT4 getting lazier!. Пост в X (Twitter), 8 декабря 2023.
- ↑ Lynch, R. (2023). Does ChatGPT have Seasonal Affective Disorder? Эксперимент и обсуждение в X (Twitter), декабрь 2023.
- ↑ Berglund, L. (2023). Leaked GPTs и связанные обсуждения в сообществе. GitHub, 2023–2024.
- ↑ Chen, L.; Zaharia, M.; Zou, J. (2023). How Is ChatGPT's Behavior Changing over Time? https://arxiv.org/abs/2307.09009
Литература
- Achiam, J. et al. (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
- OpenAI (2023). New models and developer products announced at DevDay. https://openai.com/index/new-models-and-developer-products-announced-at-devday/
- OpenAI (2024). New embedding models and API updates. https://openai.com/index/new-embedding-models-and-api-updates/
- OpenAI (2024). GPT‑4 Turbo with Vision is now available in the API. https://openai.com/index/gpt-4-turbo-with-vision/
- OpenAI (2024). Hello GPT‑4o. https://openai.com/index/hello-gpt-4o/
- Chiang, W.‑L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. https://arxiv.org/abs/2403.04132
- Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
- Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. https://arxiv.org/abs/2307.03172
- Chen, L.; Zaharia, M.; Zou, J. (2023). How Is ChatGPT's Behavior Changing over Time? https://arxiv.org/abs/2307.09009
Ссылки
- https://platform.openai.com/docs/models — Документация моделей OpenAI
- https://github.com/openai/simple-evals — Репозиторий бенчмарков OpenAI
- https://chat.lmsys.org/ — LMSYS Chatbot Arena