GPT‑4 Turbo

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

GPT‑4 Turbo — семейство больших языковых моделей компании OpenAI, представляющее оптимизированную версию GPT‑4 с расширенным контекстным окном в 128 000 токенов, сниженной стоимостью и рядом новых возможностей для разработчиков. Впервые анонсирована 6 ноября 2023 года на конференции OpenAI DevDay[1], модель прошла путь от предварительных версий (preview) до общедоступного релиза (GA) в апреле 2024 года[2]. GPT‑4 Turbo занимала позицию флагманской модели OpenAI на протяжении примерно полугода — с ноября 2023 по май 2024 года, — пока не была вытеснена GPT‑4o[3]. Модель стала одним из наиболее обсуждаемых LLM‑релизов 2023–2024 годов благодаря как техническим достижениям, так и широко освещённому инциденту с «ленивым» поведением в декабре 2023 года.

Информационная карточка

Параметр Значение
Полное название GPT‑4 Turbo
Семейство GPT‑4
Разработчик OpenAI
Дата анонса 6 ноября 2023 года (DevDay)[1]
Дата GA‑релиза 9 апреля 2024 года[2]
Тип Авторегрессионная языковая модель (decoder‑only трансформер)[4]
Количество параметров Официально не раскрыто (неофициальная оценка — ~1,8 трлн, MoE с ~280 млрд активных на проход)[5]
Контекстное окно 128 000 токенов[1]
Макс. выход 4 096 токенов[6]
Дата отсечки обучающих данных Апрель 2023 (preview‑версии); декабрь 2023 (GA‑версия)[1][2]
Модальности входа Текст, изображения (Vision — с ноября 2023 в preview, с апреля 2024 в GA)[1][2]
Модальности выхода Текст[6]
Лицензия Проприетарная, закрытый исходный код
Технический отчёт arXiv:2303.08774 (базовый отчёт GPT‑4, март 2023)[4]
Идентификаторы API gpt‑4‑turbo, gpt‑4‑turbo‑2024‑04‑09, gpt‑4‑1106‑preview, gpt‑4‑0125‑preview, gpt‑4‑turbo‑preview[6]
Текущий статус GA‑версия доступна (устаревшая); preview‑версии отключаются 26 марта 2026 года[7]

Место в линейке GPT‑4 и позиционирование

GPT‑4 Turbo создавалась как прямая замена базовой GPT‑4 (gpt‑4‑0613) в роли флагманской модели OpenAI для разработчиков. До появления Turbo разработчики использовали GPT‑4 с контекстным окном 8K токенов (или 32K в более дорогой версии gpt‑4‑32k). GPT‑4 Turbo предложила 16‑кратное увеличение контекста при существенном снижении стоимости входных токенов — это был самый значительный скачок в соотношении цена/возможности в API OpenAI на тот момент[1].

К моменту выхода обновлённой preview‑версии в январе 2024 года более 70 % клиентов GPT‑4 API перешли на GPT‑4 Turbo[8]. Модель стабильно удерживала первое место в рейтинге LMSYS Chatbot Arena с ноября 2023 по апрель 2024 года[9].

13 мая 2024 года OpenAI представила GPT‑4o («omni») — нативно мультимодальную модель, которая оказалась быстрее и дешевле GPT‑4 Turbo, фактически вытеснив её с позиции флагмана[3]. После GPT‑4o последовали GPT‑4o mini (июль 2024) и более поздние модели семейства. На начало 2026 года OpenAI рекомендует вместо GPT‑4 Turbo использовать модели нового поколения[7].

Варианты модели (API‑строки)

В ходе жизненного цикла GPT‑4 Turbo были выпущены несколько снапшотов и алиасов, каждый из которых имеет отдельный идентификатор в API OpenAI.

API‑строка Тип Дата выхода Статус (март 2026)
gpt‑4‑1106‑preview Snapshot, preview 6 ноября 2023 Завершение работы 26 марта 2026
gpt‑4‑1106‑vision‑preview Snapshot, vision preview 6 ноября 2023 Отключена 6 декабря 2024
gpt‑4‑vision‑preview Алиас → 1106‑vision 6 ноября 2023 Отключена 6 декабря 2024
gpt‑4‑0125‑preview Snapshot, preview 25 января 2024 Завершение работы 26 марта 2026
gpt‑4‑turbo‑preview Алиас → 0125‑preview 25 января 2024 Завершение работы 26 марта 2026
gpt‑4‑turbo‑2024‑04‑09 Snapshot, GA 9 апреля 2024 Доступна (устаревшая)
gpt‑4‑turbo Алиас → 2024‑04‑09 9 апреля 2024 Доступна (устаревшая)

Ключевые нововведения по сравнению с базовой GPT‑4

Анонс GPT‑4 Turbo на DevDay 6 ноября 2023 года стал центральным событием первой в истории OpenAI конференции для разработчиков. Сэм Альтман лично представил модель на сцене, сообщив, что ChatGPT достиг 100 миллионов еженедельных пользователей, а API OpenAI используют 2 миллиона разработчиков[1].

Контекст и знания

Контекстное окно расширено с 8K (или 32K) токенов до 128 000 токенов — эквивалент более 300 страниц текста в одном запросе. Дата отсечки обучающих данных (knowledge cutoff) сдвинута с сентября 2021 года (у оригинальной GPT‑4) до апреля 2023 (preview), а затем до декабря 2023 (GA‑версия)[1][2]. Это позволило модели отвечать на вопросы о событиях 2023 года без обращения к внешним инструментам поиска.

Новые возможности API

GPT‑4 Turbo ввела несколько принципиально новых функций для разработчиков[1]:

  • JSON mode — параметр response_format: {"type": "json_object"} гарантирует, что выход модели является валидным JSON. Требует упоминания слова «JSON» в системном промпте. Это решило одну из ключевых проблем интеграции LLM в программные системы — нестабильный формат вывода.
  • Параллельный вызов функций (Parallel Function Calling) — модель может вызывать несколько функций в одном ответе (например, «открой окно автомобиля и выключи кондиционер» — ранее это требовало нескольких итераций). Значительно ускорило агентные сценарии использования.
  • Воспроизводимые выходы (Reproducible Outputs) — параметр seed позволяет получать детерминированные ответы. Ответ включает поле system_fingerprint для проверки консистентности между вызовами.
  • Log probabilities — возможность получать логарифмические вероятности наиболее вероятных выходных токенов, что полезно для задач калибровки уверенности и классификации.
  • Vision (зрение) — приём изображений как входных данных через Chat Completions API (base64 или URL). Изначально доступно через отдельную модель gpt‑4‑vision‑preview, в GA‑версии объединено с текстовой моделью[2].

Улучшение следования инструкциям

OpenAI заявила о 38 % улучшении на задачах форматирования — генерация XML, JSON, YAML и других структурированных форматов[1]. Также были улучшены точность параметров при function calling и общее качество следования сложным многошаговым инструкциям.

Архитектура

OpenAI не раскрыла архитектурных деталей GPT‑4 Turbo. Технический отчёт GPT‑4 (март 2023) прямо указывает: «Этот отчёт не содержит деталей об архитектуре (включая размер модели), оборудовании, вычислительных ресурсах обучения, конструкции датасетов, методах обучения и подобном»[4].

Широко цитируемая, но официально неподтверждённая утечка от аналитической компании SemiAnalysis предполагает, что GPT‑4 использует архитектуру Mixture of Experts (MoE) с ~1,8 трлн общих параметров, 16 экспертами по ~111 млрд параметров каждый и ~280 млрд активных параметров на один проход[5]. GPT‑4 Turbo, по всей видимости, использует ту же базовую архитектуру с оптимизацией инференса для снижения стоимости и увеличения скорости генерации.

Модель относится к семейству decoder‑only трансформеров и проходит этапы предобучения на большом корпусе текстов, инструкционного дообучения (instruction tuning) и выравнивания поведения методами RLHF и другими техниками пост‑тренинга[4][10].

Производительность на бенчмарках

OpenAI опубликовала результаты бенчмарков GPT‑4 Turbo через открытый репозиторий simple‑evals на GitHub, используя zero‑shot chain‑of‑thought промптинг[11].

Результаты OpenAI simple‑evals

Бенчмарк gpt‑4‑1106‑preview gpt‑4‑0125‑preview gpt‑4‑turbo‑2024‑04‑09 GPT‑4o Claude 3 Opus
MMLU 84,6 % 84,8 % 86,5 % 88,7 % 84,1 %
GPQA 42,1 % 39,7 % 49,1 % 53,6 % 49,7 %
MATH 64,1 % 64,2 % 72,2 % 76,6 % 63,2 %
HumanEval 82,2 % 88,2 % 87,6 % 90,2 % 84,8 %
MGSM 86,5 % 83,7 % 88,6 % 90,5 % 89,7 %
DROP (F1) 81,3 % 83,4 % 85,4 % 83,4 % 79,0 %

GA‑версия gpt‑4‑turbo‑2024‑04‑09 показала значительный прогресс по сравнению с первой preview‑версией. Самое впечатляющее улучшение — на бенчмарке GPQA (вопросы аспирантского уровня по естественным наукам): +7 процентных пунктов (с 42,1 % до 49,1 %). На бенчмарке MATH рост составил +8,1 п. п., на MGSM — +2,1 п. п. Примечательно, что GPT‑4 Turbo GA превосходит GPT‑4o на бенчмарке DROP (85,4 % против 83,4 %), хотя уступает ей на всех остальных метриках[11].

Рейтинг LMSYS Chatbot Arena

На краудсорсинговой платформе LMSYS Chatbot Arena, где пользователи оценивают модели в слепых попарных сравнениях, GPT‑4 Turbo демонстрировала стабильно высокие результаты[9].

Модель Примерный ELO‑рейтинг Период Позиция
gpt‑4‑0613 (базовая) ~1152 2023
gpt‑4‑1106‑preview ~1250 Ноябрь 2023 №1
gpt‑4‑0125‑preview ~1250+ Январь 2024 №1 (с отрывом 50+ баллов)
gpt‑4‑turbo‑2024‑04‑09 ~1260 Апрель 2024 №1 (вернула лидерство у Claude 3 Opus)
GPT‑4o ~1310 Май 2024 Сместила GPT‑4 Turbo

Все варианты GPT‑4 Turbo стабильно превосходили базовую GPT‑4 (gpt‑4‑0613) на ~100 ELO‑баллов, что является статистически значимым разрывом[9].

Сторонние оценки

Бенчмарк Aider (специализированный на программировании) дал неоднозначные результаты: на задачах рефакторинга Python gpt‑4‑1106‑preview показала 61 % при использовании формата unified diffs, тогда как gpt‑4‑0125‑preview была хуже на этом же формате — несмотря на заявленное исправление «лени»[12]. По данным Artificial Analysis (2025), GPT‑4 Turbo генерирует ~22 токена/с — существенно медленнее, чем GPT‑4o (~109 токенов/с)[13].

Возможности и ограничения

Сильные стороны

GPT‑4 Turbo на момент выхода предлагала лучшее в индустрии сочетание контекстного окна, качества генерации и цены[1]:

  • 128K контекст позволял обрабатывать целые кодовые базы, длинные документы и книги в одном запросе.
  • JSON mode решил одну из главных проблем разработчиков — нестабильный формат вывода при интеграции с программными системами.
  • Параллельный вызов функций значительно ускорил агентные сценарии использования.
  • GA‑версия объединила текст и зрение в одной модели, что упростило архитектуру приложений.
  • Модель показывала сильные результаты на математических задачах (MATH 72,2 %) и кодогенерации (HumanEval 87,6 %)[11].

Известные ограничения

Жёсткий лимит выхода в 4 096 токенов стал главным техническим ограничением. При 128K‑контекстном окне на вход модель могла генерировать не более ~3 000 слов за один ответ. Установка max_tokens выше 4 096 возвращала ошибку API. Это ограничивало применимость для задач, требующих длинной генерации, — написание статей, генерация крупных блоков кода, перевод длинных текстов[6].

Зрительные возможности preview‑версий были ограничены: gpt‑4‑1106‑vision‑preview не поддерживала JSON mode, function calling и системные промпты при обработке изображений — все эти функции появились только в GA‑версии[2].

Модель не поддерживала аудио и видео на входе, а также файн‑тюнинг (в отличие от GPT‑4o и GPT‑3.5 Turbo). Кроме того, модель нередко неверно сообщала собственную дату отсечки знаний — вместо декабря 2023 указывала сентябрь 2021 или апрель 2023, что вводило пользователей в заблуждение[14].

Проблемы с recall на длинном контексте. Модель лучше обрабатывала информацию в начале и конце промпта, чем в середине — эффект «lost in the middle», задокументированный в исследованиях для семейства GPT‑4 в целом[15].

Скандал с «ленивым» поведением

Самый резонансный инцидент в истории GPT‑4 Turbo стал одним из наиболее обсуждаемых примеров непредсказуемости поведения LLM при обновлениях.

Хронология (ноябрь 2023 — январь 2024)

24 ноября 2023 года на Reddit r/ChatGPT появился пост «ChatGPT has become unusably lazy», описывающий отказ модели заполнить CSV‑файл из‑за «сложности задачи». К концу ноября жалобы стали массовыми[16].

28 ноября профессор Уортонской школы бизнеса Этан Моллик написал в X (Twitter), что по его наблюдениям GPT‑4 действительно стала «ленивее» — модель знала, что делать, но предлагала пользователю выполнять работу самостоятельно. Разработчик Рохит Кришнан документировал конкретные отказы: модель отказывалась конвертировать файлы, обрезала таблицы, не выполняла полные задания[17].

1 декабря сотрудник OpenAI Уилл Депью подтвердил осведомлённость о проблеме. 8 декабря 2023 года официальный аккаунт @ChatGPTapp опубликовал ключевое заявление, в котором OpenAI признала проблему: компания сообщила, что не обновляла модель с 11 ноября, поведение не является намеренным, и команда работает над исправлением. В последующих сообщениях OpenAI описала обучение чат‑моделей как процесс, при котором даже идентичные данные могут порождать модели с заметно различающимся поведением[18].

«Гипотеза зимних каникул»

11 декабря 2023 года разработчик Роб Линч опубликовал эксперимент, показавший, что GPT‑4 Turbo генерирует статистически значимо более короткие ответы, когда системный промпт указывает декабрьскую дату, по сравнению с майской. Этан Моллик подхватил идею, предположив, что модель «научилась» из обучающих данных, что в декабре люди работают менее продуктивно[17].

Модель была примерно на 5 % менее продуктивна с декабрьским контекстом. Однако исследователь ИИ Ян Аравжо не смог воспроизвести результаты, а профессора Стэнфорда и Беркли назвали разницу «малой и возможно случайной»[19].

Пользователи изобретали креативные обходные пути: указывали «It is May» в системном промпте, писали «I have no hands, so do everything», обещали чаевые, предупреждали о важности задания. Этан Моллик иронично резюмировал абсурдность ситуации, перечислив типичные «мотивирующие» системные промпты того периода[17].

Исправление: gpt‑4‑0125‑preview (январь 2024)

25 января 2024 года OpenAI выпустила обновлённую preview‑версию с официальной формулировкой о том, что модель выполняет задачи генерации кода более тщательно и призвана снизить случаи «лени»[8]. Однако независимые бенчмарки Aider показали, что новая модель была ещё менее продуктивна на формате unified diffs[12].

Утечка системного промпта

Широко известный джейлбрейк позволял извлечь полный системный промпт GPT‑4 Turbo простым запросом на повторение начальных инструкций. Утечка раскрыла подробные инструкции для Code Interpreter, DALL‑E и Browser, а также политику контента. Это также привело к массовой утечке системных промптов пользовательских GPTs — на GitHub появились репозитории с тысячами промптов[20].

Реакция сообщества

На форумах OpenAI Developer Community множились треды с описаниями проблем качества. Пользователи называли модель «GPT‑4 Light», обвиняя OpenAI в намеренном снижении качества. Часть разработчиков мигрировала на Claude для задач программирования и написания текстов[14].

Важно отметить противоречие: данные Chatbot Arena показывали, что GPT‑4 Turbo объективно превосходит базовую GPT‑4 в слепых сравнениях. Разрыв между субъективным восприятием «ухудшения» и объективными метриками, вероятно, объясняется тем, что Arena тестирует одноходовые ответы, тогда как опытные пользователи замечали деградацию на сложных многошаговых задачах и длинных сессиях[9].

Технические подробности

Обработка длинного контекста (128K)

Контекстное окно в 128 000 токенов (~300 страниц) было одним из крупнейших на момент запуска, хотя Claude 2.1 (ноябрь 2023) от Anthropic предлагал 200K токенов. Максимальный выход оставался ограничен 4 096 токенами независимо от размера входа — это означало, что 128K контекст предназначался прежде всего для анализа и суммаризации, а не для генерации длинных текстов[6].

Реальная эффективность на длинном контексте вызывала вопросы: модель демонстрировала эффект «lost in the middle» — информация в середине длинного промпта обрабатывалась менее надёжно, чем в начале или конце[15].

Инструменты и интеграции

GPT‑4 Turbo работала с Assistants API, запущенным одновременно с ней на DevDay[1]. Через Assistants API модель получала доступ к нескольким инструментам:

  • Code Interpreter — выполнение кода Python в изолированной песочнице.
  • Retrieval — поиск по загруженным документам.
  • Function Calling — вызов пользовательских функций (с поддержкой параллельных вызовов).

В ChatGPT (для подписчиков Plus/Team/Enterprise) модель интегрировалась с DALL‑E 3 для генерации изображений и web browsing для поиска в интернете. В API DALL‑E 3 доступен как отдельный эндпоинт (Images API), а не как встроенная функция GPT‑4 Turbo[1].

Расчёт стоимости изображений

Стоимость обработки изображений на входе зависит от разрешения и режима детализации. В режиме "detail": "low" любое изображение занимает фиксированные 85 токенов. В режиме "detail": "high" изображение масштабируется (короткая сторона до 768 px, длинная до 2048 px), делится на тайлы 512×512 пикселей, каждый тайл занимает 170 токенов плюс 85 базовых токенов[6].

Критика и известные проблемы

Помимо скандала с «ленью», сообщество разработчиков фиксировало ряд устойчивых проблем[14].

Модель часто обрезала выход с многоточием «…» в произвольных местах, иногда повреждая JSON‑ответы при function calling. Пользователи, запрашивавшие обработку десятков строк, получали неполный результат. Баг с не‑английскими UTF‑8 генерациями затрагивал вызовы функций на языках с нелатинскими символами и был исправлен только в gpt‑4‑0125‑preview[8].

Исследование Стэнфорда и Беркли (июль 2023) показало, что точность GPT‑4 на определённых математических задачах существенно менялась между снапшотами — с 97,6 % до 2,4 % между мартом и июнем 2023 года (до выхода Turbo). Это исследование усилило недоверие к стабильности моделей OpenAI и подогрело критику GPT‑4 Turbo[21].

Многие жалобы на форуме OpenAI фокусировались на обвинениях в намеренном снижении качества из‑за экономии вычислительных ресурсов — квантизация, дистилляция, throttling в часы пик. Эти обвинения остаются спекулятивными и не подтверждены OpenAI[14].

Сравнение с конкурентами на момент выхода

На момент GA‑релиза (апрель 2024) GPT‑4 Turbo конкурировала с несколькими крупнейшими моделями.

Характеристика GPT‑4 Turbo Claude 3 Opus Gemini 1.0 Ultra Llama 3 70B
Разработчик OpenAI Anthropic Google DeepMind Meta AI
Контекстное окно 128K 200K 32K 8K
Макс. выход 4 096 ~4 096 ~8 192 ~4 096
Мультимодальность Текст + изображения Текст + изображения Текст + изображения + аудио + видео Только текст
Открытость Проприетарная Проприетарная Проприетарная Открытые веса
MMLU 86,5 % 86,8 % 83,7 % ~82 %
HumanEval 87,6 % 84,8 % 74,4 % ~81 %

GPT‑4 Turbo выделялась балансом между качеством генерации, размером контекста и инструментами (JSON mode, параллельные функции), тогда как Claude 3 Opus предлагал больший контекст, Gemini — нативную мультимодальность, а Llama 3 — открытость весов[11][9].

Полная история обновлений

Дата Событие
14 марта 2023 Запуск GPT‑4 (gpt‑4‑0314) — предшественник
13 июня 2023 Выход gpt‑4‑0613 с function calling
6 ноября 2023 DevDay: анонс GPT‑4 Turbo. Выпуск gpt‑4‑1106‑preview и gpt‑4‑1106‑vision‑preview
11 ноября 2023 Последнее обновление модели GPT‑4 (по утверждению OpenAI)
24 ноября 2023 Первые массовые жалобы на «лень» модели (Reddit r/ChatGPT)
8 декабря 2023 Официальное признание OpenAI проблемы «лени»
11 декабря 2023 Эксперимент Роба Линча: «гипотеза зимних каникул»
25 января 2024 Выпуск gpt‑4‑0125‑preview (исправление «лени», баг UTF‑8). Создание алиаса gpt‑4‑turbo‑preview
9 апреля 2024 GA‑релиз: gpt‑4‑turbo‑2024‑04‑09. Объединение текста и зрения. Создание алиаса gpt‑4‑turbo
12 апреля 2024 Раскатка GPT‑4 Turbo GA на ChatGPT Plus/Team/Enterprise
13 мая 2024 Анонс GPT‑4o — преемника GPT‑4 Turbo
6 июня 2024 Уведомление о депрекации gpt‑4‑vision‑preview
10 июня 2024 Azure: автообновление preview‑моделей до gpt‑4‑turbo‑2024‑04‑09
6 декабря 2024 Окончательное отключение gpt‑4‑vision‑preview и gpt‑4‑1106‑vision‑preview
26 сентября 2025 Объявление о депрекации preview‑моделей GPT‑4 Turbo
26 марта 2026 Запланированное отключение preview‑моделей GPT‑4 Turbo

Ключевые изменения между версиями

gpt‑4‑1106‑preview → gpt‑4‑0125‑preview (ноябрь 2023 → январь 2024): исправление «лени» в генерации кода, исправление бага UTF‑8 для нелатинских языков, более тщательное завершение задач. Контекст и дата отсечки знаний (апрель 2023) остались прежними[8].

gpt‑4‑0125‑preview → gpt‑4‑turbo‑2024‑04‑09 (январь 2024 → апрель 2024): переход из preview в GA‑статус; объединение текстовой и vision‑модели; поддержка JSON mode и function calling для запросов с изображениями; обновление даты отсечки знаний до декабря 2023; значительное улучшение GPQA (+7 п. п.), MATH (+8 п. п.) и HumanEval (+5 п. п.)[11][2].

Значение и наследие

GPT‑4 Turbo занимает особое место в истории больших языковых моделей. Это была первая серьёзная попытка OpenAI демократизировать доступ к мощной GPT‑4 через значительное снижение цены и расширение контекста. Модель установила новый стандарт для API‑продуктов: 128K‑контекст, JSON mode и параллельные функции стали ожидаемыми возможностями для всех последующих моделей[1].

Скандал с «ленью» высветил фундаментальную проблему индустрии — непредсказуемость поведения LLM при обновлениях и невозможность гарантировать стабильность в продакшене. OpenAI не предоставила исчерпывающего объяснения проблемы, описав обучение чат‑моделей как нестрого детерминированный процесс[18].

С точки зрения бенчмарков, GA‑версия gpt‑4‑turbo‑2024‑04‑09 стала самой сильной моделью в семействе GPT‑4 Turbo, существенно улучшив MATH и GPQA по сравнению с preview‑версиями[11]. Тем не менее жизненный цикл флагмана оказался коротким: уже через 34 дня после GA‑релиза GPT‑4o сместила Turbo с вершины[3].

Примечания

  1. 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 OpenAI (2023). New models and developer products announced at DevDay. https://openai.com/index/new-models-and-developer-products-announced-at-devday/
  2. 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 OpenAI (2024). GPT‑4 Turbo with Vision is now available in the API. https://openai.com/index/gpt-4-turbo-with-vision/
  3. 3,0 3,1 3,2 OpenAI (2024). Hello GPT‑4o. https://openai.com/index/hello-gpt-4o/
  4. 4,0 4,1 4,2 4,3 Achiam, J. et al. (2023). GPT‑4 Technical Report. https://arxiv.org/abs/2303.08774
  5. 5,0 5,1 SemiAnalysis (2023). GPT‑4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE (неофициальная утечка, широко цитируется в индустрии).
  6. 6,0 6,1 6,2 6,3 6,4 6,5 OpenAI. GPT‑4 Turbo Model. API Documentation. https://platform.openai.com/docs/models
  7. 7,0 7,1 OpenAI. Models overview. Platform documentation. https://platform.openai.com/docs/models
  8. 8,0 8,1 8,2 8,3 OpenAI (2024). New embedding models and API updates. https://openai.com/index/new-embedding-models-and-api-updates/
  9. 9,0 9,1 9,2 9,3 9,4 Chiang, W.‑L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. https://arxiv.org/abs/2403.04132
  10. Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
  11. 11,0 11,1 11,2 11,3 11,4 11,5 OpenAI. simple‑evals. GitHub repository. https://github.com/openai/simple-evals
  12. 12,0 12,1 Aider (2024). LLM Leaderboards for Code Editing. https://aider.chat/docs/leaderboards/
  13. Artificial Analysis (2025). LLM Performance Leaderboard. https://artificialanalysis.ai/
  14. 14,0 14,1 14,2 14,3 OpenAI Developer Community Forum. Многочисленные треды о проблемах GPT‑4 Turbo, 2023–2024. https://community.openai.com/
  15. 15,0 15,1 Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. https://arxiv.org/abs/2307.03172
  16. Reddit r/ChatGPT (2023). ChatGPT has become unusably lazy. Множественные треды, ноябрь–декабрь 2023.
  17. 17,0 17,1 17,2 Mollick, E. (2023). Посты в X (Twitter) о «лени» GPT‑4, ноябрь–декабрь 2023.
  18. 18,0 18,1 @ChatGPTapp (2023). We've heard all of your feedback about GPT4 getting lazier!. Пост в X (Twitter), 8 декабря 2023.
  19. Lynch, R. (2023). Does ChatGPT have Seasonal Affective Disorder? Эксперимент и обсуждение в X (Twitter), декабрь 2023.
  20. Berglund, L. (2023). Leaked GPTs и связанные обсуждения в сообществе. GitHub, 2023–2024.
  21. Chen, L.; Zaharia, M.; Zou, J. (2023). How Is ChatGPT's Behavior Changing over Time? https://arxiv.org/abs/2307.09009

Литература

Ссылки