GLM (Zhipu AI)

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

GLM (General Language Model) — семейство больших языковых моделей (Large Language Model, LLM), разработанных компанией Zhipu AI (с 2025 года — Z.ai) совместно с лабораторией Knowledge Engineering Group (KEG) факультета компьютерных наук Университета Цинхуа (Пекин). Серия охватывает модели от 6 до 744 млрд параметров, ориентированные преимущественно на китайский и английский языки. Отличительной чертой архитектурного фундамента является целевая функция предобучения на основе авторегрессионного заполнения пропусков (autoregressive blank infilling), объединяющая свойства энкодерных и декодерных трансформеров в единой унифицированной схеме.[1][2][3]

Серия включает базовые предобученные модели, диалоговые варианты (ChatGLM), мультимодальные расширения (GLM‑4V, CogVLM), специализированные инструменты (CodeGeeX для генерации кода, WebGLM для веб‑поиска) и агентные системы (GLM‑4 All Tools, AutoGLM). Эволюция семейства прослеживается от GLM‑10B (2021) и GLM‑130B (2022) до GLM‑4 (2024), GLM‑4.5 (2025) и GLM‑5 (2026), с переходом от плотных (dense) архитектур к Mixture‑of‑Experts (MoE) и акцентом на агентные сценарии.[2][4]

История и предпосылки

Институциональный контекст

Zhipu AI основана в 2019 году профессорами Университета Цинхуа Тан Цзе (Tang Jie) и Ли Цзюаньцзы (Li Juanzi) на базе лаборатории KEG, специализировавшейся на графах знаний. В 2020 году компания сосредоточила усилия на масштабных языковых моделях. В 2023 году привлечено 2,5 млрд юаней инвестиций (≈350 млн долл. США) при участии Alibaba Group, Tencent, Ant Group, Meituan и Xiaomi. В июле 2025 года компания сменила публичный бренд на Z.ai, а в январе 2026 года провела IPO на Гонконгской фондовой бирже.[5][6]

Семинальная работа: GLM (2021–2022)

Базовый препринт «GLM: General Language Model Pretraining with Autoregressive Blank Infilling» опубликован на arXiv в марте 2021 года (arXiv:2103.10360) и принят на конференцию ACL 2022. Авторы: Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang. Работа мотивирована ограничениями существовавших архитектурных парадигм: энкодерные модели (BERT) оптимальны для задач понимания естественного языка (Natural Language Understanding, NLU), декодерные (GPT) — для генерации, а энкодер‑декодерные (T5) требуют большего числа параметров. GLM предложил единый подход, способный решать оба класса задач.[1][7]

Хронология основных выпусков

Год Модель Ключевые особенности
2021 GLM (базовый), GLM‑10B Авторегрессионное заполнение пропусков, 2D‑позиционные кодировки; параметры до 515M (базовый) и 10B
2022 GLM‑130B 130B параметров, двуязычная (китайский / английский), открытые веса, INT4‑квантизация без дообучения; принята на ICLR 2023
2023, март ChatGLM‑6B (v1) 6,2B параметров, ≈1T токенов предобучения, SFT + RLHF‑выравнивание, INT4‑квантизация (≈6 ГБ памяти)
2023, июнь ChatGLM2‑6B 1,4T токенов, FlashAttention, Multi‑Query Attention (MQA), контекст до 32K токенов
2023, октябрь ChatGLM3‑6B Улучшенное следование инструкциям, поддержка вызова инструментов (tool calling), Code Interpreter
2024 GLM‑4, GLM‑4‑Air, GLM‑4‑9B ≈10T токенов предобучения, RoPE + GQA, контекст до 128K / 1M токенов; GLM‑4 All Tools
2024 GLM‑4V‑9B Мультимодальная версия с визуальным энкодером
2025 GLM‑4.5, GLM‑4.6, GLM‑4.7 MoE‑архитектура (GLM‑4.5), последовательные улучшения рассуждений и кодирования
2025 GLM‑4.1V‑Thinking Визуально‑языковая модель с усиленным многошаговым рассуждением (arXiv:2507.01006)
2026, февраль GLM‑5 744B параметров (MoE), ≈40–44B активных, 200K‑токенный контекст, агентные задачи; обучение на Huawei Ascend

[1][2][3][4][8]

Семейство GLM развивается в связке с сопутствующими моделями Zhipu AI: кодовыми CodeGeeX, визуально‑языковыми CogVLM / CogAgent, генеративными CogView, а также специализированными системами WebGLM и AgentLM.[2]

Теоретические и архитектурные основы

Целевая функция предобучения

Базовая архитектура GLM основана на Transformer. Ключевой отличительной чертой является autoregressive blank infilling — вариация авторегрессионного моделирования, в которой модель учится восстанавливать пропуски (spans) в тексте по контексту.[1][7]

Пусть x=[x1,,xn] — входная последовательность. Случайно выбираются непрерывные фрагменты (spans) {s1,,sm}, которые заменяются единственным токеном [MASK], формируя искажённый текст xcorrupt. Модель авторегрессионно восстанавливает каждый фрагмент в случайном порядке перестановки:

=i=1mj=1|si|logP(si,jxcorrupt,si,<j,s<i)

где xcorrupt — повреждённая последовательность с маскированными фрагментами, si,<j — уже восстановленные токены текущего фрагмента si, s<i — полностью восстановленные предшествующие фрагменты. Порядок восстановления фрагментов задаётся случайной перестановкой из множества Zm, что позволяет модели обрабатывать зависимости между фрагментами.[1]

Для регулировки задачи: при коротких пропусках (≈15% токенов) модель оптимизируется под NLU, при длинных фрагментах (до 50–100% токенов) — под генеративные задачи. Это позволяет единой модели покрывать оба режима через многозадачное предобучение (multi‑task learning).[1][7]

2D‑позиционные кодировки

GLM вводит двумерные позиционные кодировки для разграничения позиций в исходной повреждённой последовательности и позиций внутри восстанавливаемых фрагментов:[1]

  • Первое измерение pos1: абсолютная позиция токена (или маски) в повреждённой последовательности.
  • Второе измерение pos2: позиция токена внутри своего фрагмента при авторегрессионной генерации (0 для токенов оригинала).

Данная схема позволяет корректно разграничить контекст и генерируемый текст без дополнительных архитектурных элементов, аналогичных энкодеру.

Маска внимания

В GLM применяется двухчастная маска внимания: двунаправленное (bidirectional) внимание для незамаскированных токенов (Part A — контекст) и каузальное (causal) внимание для токенов внутри фрагментов (Part B — восстанавливаемые спаны). Это обеспечивает полноконтекстное понимание исходного текста при авторегрессионной генерации восстанавливаемых частей. В отличие от BERT (независимые предсказания масок) GLM учитывает зависимости между спанами; в отличие от GPT — использует двунаправленный контекст Part A; в отличие от T5 — не требует отдельного энкодера.[1][7]

Эволюция архитектурных компонентов

На уровне параметров Transformer‑блока скрытое состояние hld на слое l в моделях начиная с GLM‑4 обновляется как:

h~l=hl+GQAl(RMSNorm(hl)),hl+1=h~l+FFNl(RMSNorm(h~l))

где GQA — Grouped‑Query Attention (вместо полного Multi‑Head Attention), а FFN реализован через SwiGLU.[2]

Начиная с GLM‑130B и далее в серии используются следующие архитектурные компоненты:

  • GLM‑130B: DeepNorm для стабилизации обучения глубоких сетей; Rotary Positional Encoding (RoPE) с 2D‑расширением; Gated Linear Units (GLU) с GeLU‑активацией (GeGLU).[8]
  • GLM‑4: переход на RMSNorm и SwiGLU; Group Query Attention (GQA) вместо Multi‑Head Attention (MHA) для уменьшения KV‑кэша; удалены все bias‑термы, кроме Q/K/V в attention; увеличенный размер FFN до 103dhidden для сохранения числа параметров при GQA.[2]
  • GLM‑4.5: Mixture‑of‑Experts (MoE) с loss‑free balance routing и sigmoid gates; гибридный режим рассуждений (thinking / non‑thinking).[3]
  • GLM‑5: DeepSeek Sparse Attention (DSA) для эффективной обработки длинного контекста до 200K токенов; Multi‑Token Prediction (MTP) для спекулятивного декодирования; обучение полностью на процессорах Huawei Ascend с использованием MindSpore.[4]

Масштабирование и законы масштабирования

В ходе разработки ChatGLM‑линейки исследуются эмпирические зависимости между предобучающей потерей и качеством на задачах, включая феномен «emergent abilities». Показано, что при фиксированном уровне предобучающей потери модели разных размеров (и числа токенов) демонстрируют сопоставимую производительность, а на отдельных задачах (MMLU, GSM8K) качество начинает превосходить случайный уровень только после достижения определённого порога предобучающей потери.[2]

Архитектуры и модели в серии GLM

GLM‑10B и GLM‑130B

GLM‑10B (2021) — 10‑миллиардная модель, демонстрирующая применимость архитектуры GLM с blank infilling и служащая базой для последующего масштабирования.[1]

GLM‑130B (2022) представлена в октябре 2022 года и принята на ICLR 2023 (arXiv:2210.02414):[8]

  • Число параметров: ≈130 млрд (плотная двуязычная модель).
  • Объём предобучения: свыше 400 млрд токенов (≈200 млрд на китайском, ≈200 млрд на английском).
  • Архитектура: 70 слоёв, hidden size 12 288, 96 голов внимания; DeepNorm, RoPE, GeGLU; дополнительное многозадачное обучение (Multi‑Task Instruction Pretraining, MIP) — ≈5% токенов на 74 датасетах задач NLU/NLG.
  • Квантизация: INT4 без дообучения после квантизации (post‑training quantization) — первый задокументированный результат такого рода среди 100B+‑моделей; инференс возможен на 4×RTX 3090 (24 ГБ) или 8×RTX 2080 Ti (11 ГБ).
  • Устойчивость обучения: авторы документируют многочисленные всплески функции потерь (loss spikes) и описывают применённые стратегии стабилизации (gradient clipping, Embedding Gradient Shrink).

На момент публикации GLM‑130B превосходил GPT‑3 175B (davinci) на широком наборе англоязычных бенчмарков (суммарно 112 задач) и ERNIE TITAN 3.0 260B на китайскоязычных задачах; при этом превосходство над OPT‑175B и BLOOM‑176B воспроизведено не было — авторы явно указывают на это ограничение. По оценке HELM (ноябрь 2022) GLM‑130B сопоставим с GPT‑3 по ряду метрик.[8][2]

Семейство ChatGLM‑6B/2/3

ChatGLM‑6B (март 2023) — диалоговая модель с 6,2 млрд параметров, совместно разработанная KEG и Zhipu AI, опубликованная как открытый проект:[2][9]

  • Предобучение на ≈1 трлн токенов (китайский + английский), контекст 2K.
  • Ориентирована на диалог; начальное выравнивание выполняется преимущественно SFT и RLHF.
  • INT4‑квантизация при потреблении ≈6 ГБ памяти, что обеспечивало локальный запуск на потребительском оборудовании.

ChatGLM2‑6B (июнь 2023):[2]

  • Увеличен объём предобучения до 1,4 трлн токенов.
  • Введены FlashAttention и Multi‑Query Attention (MQA); контекст расширен до 32K токенов.
  • Существенный прирост на бенчмарках: MMLU +23 п. п., GSM8K +571%, BBH +60% относительно ChatGLM‑6B.

ChatGLM3‑6B (октябрь 2023):[2]

  • Дополнительный прирост на 42 бенчмарках в областях семантики, математики, рассуждений, кода и знаний.
  • Нативная поддержка function call, встроенного Code Interpreter и агентных задач через AgentTuning / AgentLM.

GLM‑4, GLM‑4‑Air, GLM‑4‑9B и GLM‑4 All Tools

Технический отчёт (arXiv:2406.12793) описывает GLM‑4 как семейство моделей, предобученных на ≈10 трлн токенов (преимущественно китайский и английский, плюс 24 дополнительных языка) и выровненных под китайский и английский.[2]

Ключевые варианты:

  • GLM‑4 (флагманская модель, версии 0116 и 0520): плотный трансформер, hidden size 6144, 61 слой, 48 голов внимания, контекст 128K.
  • GLM‑4‑Air — более компактная и быстрая модель с качеством, близким к GLM‑4‑0116, при меньших задержках.
  • GLM‑4‑9B — 9‑миллиардная модель (контекст 8K, варианты 128K и экспериментальный 1M) с тем же пайплайном пост‑обучения.
  • GLM‑4 All Tools — версия, дополнительно выровненная на использование инструментов: веб‑браузер, Python‑интерпретатор, генерация изображений (CogView3) и пользовательские функции.

Архитектурные особенности GLM‑4:[2]

  • Отсутствие bias‑термов, кроме Q/K/V в attention.
  • RMSNorm и SwiGLU.
  • 2D‑RoPE.
  • Group Query Attention (GQA) с увеличенным FFN.
  • Байтовый BPE‑токенизатор размером 150K токенов, полученный объединением отдельно обученных BPE‑словарей для китайского и мультиязычного корпуса с cl100k_base.

GLM‑4.5 (ARC foundation models)

GLM‑4.5 — открытая Mixture‑of‑Experts (MoE)‑модель с акцентом на агентные, рассуждательные и кодовые задачи (Agentic, Reasoning, Coding — ARC):[3]

  • 355 млрд общих параметров, 32 млрд активных (MoE‑архитектура со sparse‑активацией): 89 слоёв, 160 экспертов, 8 активных на токен; 96 голов внимания, hidden size 5120.
  • GLM‑4.5‑Air: 106 млрд общих / 12 млрд активных параметров — эффективный вариант.
  • Обучение на 23 трлн токенов с многостадийным пост‑обучением, включающим итерацию экспертных моделей и RLHF.
  • Гибридный режим вывода (thinking mode и direct response): в первом случае модель генерирует развёрнутый рассуждательный трейс; во втором — отвечает напрямую. Переключение управляется на уровне inference‑пайплайна.
  • Loss‑free balance routing с sigmoid gates для маршрутизации экспертов.
  • Оптимизатор Muon; deeper‑and‑narrower дизайн.

GLM‑4.6 / GLM‑4.7

Серия GLM‑4.6 / 4.7 (сентябрь–декабрь 2025) развивает идеи GLM‑4.5, усиливая программирование (SWE‑bench Verified / Multilingual), сложное рассуждение (Humanity's Last Exam, AIME) и агентные задачи. GLM‑4.7 достигает 73,8% на SWE‑bench Verified и вводит Interleaved / Preserved / Turn‑level Thinking — три режима интеграции рассуждений в диалог. Отдельные конфигурации открыты как open‑weight‑модели.[3][10]

GLM‑5

Технический отчёт опубликован 21 февраля 2026 года (arXiv:2602.15763). Основные характеристики:[4]

  • Архитектура: Mixture‑of‑Experts с ≈744–745 млрд суммарных параметров, 256 экспертов, 8 активируются на каждый токен (≈40–44 млрд активных параметров, ≈5,9% плотности); 75 MoE‑слоёв + 3 плотных слоя.
  • Предобучение: 28,5 трлн токенов.
  • Контекстное окно: 200K токенов.
  • Dynamic Sparse Attention (DSA): механизм разреженного внимания, снижающий затраты на обучение и инференс при сохранении качества на длинных контекстах.
  • Multi‑Token Prediction (MTP): техника для спекулятивного декодирования при инференсе.
  • Техническая инфраструктура: обучение выполнено полностью на процессорах Huawei Ascend с использованием фреймворка MindSpore, без зависимости от GPU‑оборудования американского производства.
  • Пост‑обучение: асинхронная инфраструктура Reinforcement Learning (RL) с декаплингом генерации и обучения (decoupling inference / training); применение агентных алгоритмов RL для длинногоризонтного взаимодействия; Token‑in‑Token‑out (TITO) и иерархическое управление контекстом для long‑horizon агентных задач.
  • Лицензия: открытые веса под лицензией MIT.

Сводная таблица моделей серии

Модель Год Параметры (всего / активные) Токенов предобучения Контекст Ключевые особенности
GLM‑130B 2022 130 млрд / — ≈400 млрд 2K Плотная, билингвальная, DeepNorm, INT4‑квантизация
ChatGLM‑6B 2023 6,2 млрд / — ≈1 трлн 2K Диалоговая, SFT + RLHF, INT4 (≈6 ГБ)
ChatGLM2‑6B 2023 6,2 млрд / — 1,4 трлн 32K FlashAttention, MQA
ChatGLM3‑6B 2023 6,2 млрд / — 32K Function call, Code Interpreter, AgentTuning
GLM‑4 2024 не раскрыто (API) ≈10 трлн 128K–1M All Tools, мультимодальность (V)
GLM‑4‑9B 2024 ≈9 млрд / — ≈10 трлн 128K–1M Открытая версия, GQA
GLM‑4.5 2025 355 млрд / 32 млрд 23 трлн 128K MoE, гибридное мышление, ARC‑фокус
GLM‑4.5‑Air 2025 106 млрд / 12 млрд 23 трлн 128K Эффективный вариант MoE
GLM‑4.7 2025 128K Улучшенный coding, Interleaved Thinking
GLM‑5 2026 744 млрд / ≈40 млрд 28,5 трлн 200K DSA, MTP, агентная инженерия, Huawei Ascend

[2][3][4][8]

Мультимодальные и специализированные расширения

  • GLM‑4V‑9B — мультимодальная версия с визуальным энкодером для обработки изображений и документов.[2]
  • GLM‑4.1V‑Thinking — визуально‑языковая модель с усиленным многошаговым рассуждением (arXiv:2507.01006).[11]
  • GLM‑4‑Voice — end‑to‑end речевая модель (9B base, ≈1 трлн речево‑текстовых токенов, токенизатор 175 бит/с).[12]
  • CodeGeeX — семейство кодовых моделей (CodeGeeX‑13B, CodeGeeX2‑6B) для генерации, дополнения и рефакторинга кода на нескольких языках; встроено в IDE‑плагины.[2]
  • CogVLM / CogAgent — визуально‑языковые модели для понимания изображений и автономной навигации в GUI.[2]
  • WebGLM — модель для веб‑ориентированного поиска и QA; показано, что модель ≈10 млрд параметров приближается к WebGPT‑175B на ряде задач (KDD 2023).[2]

Обучение, данные и вспомогательные технологии

Предобучающие данные

Предобучающий корпус для GLM‑4 и предшествующих моделей включает:[2]

  • Многоязычные (преимущественно китайский и английский) веб‑страницы, Wikipedia, книги, код и научные статьи.
  • Трёхстадийный пайплайн обработки: дедупликация (точная и fuzzy), фильтрация (удаление шумовых и потенциально опасных текстов) и токенизация.
  • Единый словарь размером 150K токенов, полученный объединением отдельно обученных BPE‑словарей для китайского и мультиязычного корпуса с cl100k_base (tiktoken).

Эмпирически подтверждается важность качества и разнообразия данных, однако явных фундаментальных критериев отбора данных, выходящих за рамки опубликованных эмпирических закономерностей, авторы не формулируют.[2]

Расширение контекста и LongAlign

Контекстные окна последовательно увеличиваются от 2K (ChatGLM‑6B) до 32K (ChatGLM2/3) и далее до 128K и 1M токенов в GLM‑4, а затем до 200K в GLM‑5. Используется комбинация расширения позиционного кодирования (RoPE‑based методы масштабирования частот) и дополнительного дообучения на длинных текстах. Специальный рецепт выравнивания LongAlign позволяет поддерживать качество на длинных входах: по LongBench‑Chat GLM‑4 (0520) демонстрирует 87,3 в английской части (сопоставимо с GPT‑4 Turbo 1106: 87,2 и Claude 3 Opus: 87,7) и 84,0 в китайской (выше GPT‑4 Turbo и Claude 3 Opus).[2]

Пост‑обучение и выравнивание (SFT, RLHF)

Пост‑обучение включает два основных этапа:[2]

  • Supervised Fine‑Tuning (SFT): обучение на парах «запрос–ответ» с акцентом на реальные (human‑authored) взаимодействия, а не шаблонные или сгенерированные.
  • Reinforcement Learning from Human Feedback (RLHF): оптимизация по предпочтениям аннотаторов через PPO, DPO и собственные схемы, в частности ChatGLM‑RLHF и Self‑Contrast (негативные примеры генерируются самой моделью, что снижает потребность в данных предпочтений).

Вектор признаков для оценки ответов включает показатели безопасности, фактичности, релевантности, полезности и соответствия предпочтениям. Авторы отмечают, что RLHF снижает частоту отказов, повышает безопасность и согласованность в многоходовых диалогах.[2]

Специализированные техники экосистемы GLM

  • LongAlign — рецепт выравнивания длинного контекста (до 128K).[2]
  • ChatGLM‑Math — улучшение решения математических задач с помощью схемы self‑critique (самооценка ответов без внешних моделей).[2]
  • Self‑Contrast — RLHF‑схема, где негативные примеры генерируются самой моделью.[2]
  • AgentTuning / AgentInstruct — framework и датасет для обучения агентных навыков на траекториях взаимодействия агента с окружением.[2]
  • APAR (Auto‑Parallel Auto‑Regressive) — алгоритм автопараллельной авторегрессионной генерации для ускорения вывода.[2]

Также разработан ряд бенчмарков: AgentBench (агентные задачи), LongBench (длинный контекст), AlignBench (китайское выравнивание), HumanEval‑X (код за пределами Python), NaturalCodeBench (практические программные задачи).[2]

Ключевые результаты и бенчмарки

Все метрики приводятся по оригинальным техническим отчётам с указанием условий (zero‑/few‑shot, датасет, версия модели). Сравнение выполнено авторами технических отчётов; независимое воспроизведение на стандартизированных платформах (LMSYS Chatbot Arena, Open LLM Leaderboard) для всех версий не систематизировано.

Динамика качества: ChatGLM‑6B → GLM‑4‑9B

Бенчмарк ChatGLM‑6B ChatGLM2‑6B ChatGLM3‑6B GLM‑4‑9B
GSM8K (%) 1,5 25,9 72,3 84,0
MMLU (%) 25,2 45,2 61,4 74,7
HumanEval (%) 0,0 9,8 58,5 70,1
C‑Eval (%, кит.) 23,7 51,7 69,0 77,1

Все модели оценены в BF16 с одинаковыми настройками.[2]

GLM‑4 на академических бенчмарках

Бенчмарк GLM‑4 (0520) GPT‑4 (0314) GPT‑4 Turbo (2024‑04‑09) Claude 3 Opus
MMLU (%) 83,3 86,4 86,7 86,8
GSM8K (%) 93,3 92,0 95,6 95,0
MATH (%) 61,3 52,9 73,4 60,1
BBH (%) 84,7 83,1 88,2 86,8
GPQA (%) 39,9 35,7 49,3 50,4
HumanEval (%) 78,5 67,0 88,2 84,9

GLM‑4 (0520) достигает ≈96,3% от результата GPT‑4 на MMLU, превосходит GPT‑4 (0314) по MATH и GSM8K, но уступает GPT‑4 Turbo по MATH и HumanEval.[2]

По AlignBench v1.1 (китайское выравнивание) GLM‑4 (0520) показывает общий балл 8,00 против 7,90 у GPT‑4 Turbo и 7,53 у Claude 3 Opus с заметным преимуществом по подпоказателям «Logic», «Language», «Professional».[2]

По AgentBench GLM‑4 (0520) достигает общего балла 3,79, сопоставимого или немного выше GPT‑4 Turbo (1106) и Claude 3 Opus. Высокие показатели по задачам Database, House‑Holding и Web‑Shopping; отставание — в задачах Operating System и Lateral Thinking Puzzles.[2]

По Berkeley Function Call Leaderboard GLM‑4 (0520) достигает 81,76% (GPT‑4 Turbo: 81,24%); GLM‑4‑9B‑Chat значительно превосходит Llama‑3‑8B‑Instruct (81,00% vs 58,88%).[2]

GLM‑4.5

Бенчмарк GLM‑4.5 Примечание
TAU‑Bench (agentic avg) 70,1% Агентные задачи
AIME 2024 91,0% Математические соревнования
SWE‑bench Verified 64,2% Решение задач на реальных репозиториях
GPQA (Avg@8) 79,1% Graduate‑level вопросы
MATH‑500 98,2% Математика
MMLU‑Pro 84,6% Расширенный MMLU

С учётом меньшего числа активных параметров GLM‑4.5 занимает 3‑е место среди всех оценённых моделей (по сводному рейтингу из 12 бенчмарков) и 2‑е — на агентных бенчмарках на момент публикации отчёта.[3]

GLM‑4.7

  • SWE‑bench Verified: 73,8% (+5,8 п. п. относительно GLM‑4.5).
  • Terminal‑Bench 2.0: 41,0% (+16,5 п. п.).
  • Humanity's Last Exam (with tools): 42,8%.[10]

GLM‑5

Бенчмарк GLM‑5 Примечание
SWE‑bench Verified 77,8% Лидер среди open‑weight моделей на момент публикации
GPQA‑Diamond 86,0% Graduate‑level вопросы
Terminal‑Bench 2.0 56,2–61,1% Инженерные задачи
Humanity's Last Exam (with tools) 50,4% Сложные междисциплинарные вопросы
BrowseComp 62,0% Веб‑навигация

GLM‑5 демонстрирует улучшение ≈20% по среднему показателю относительно GLM‑4.7 и занимает позиции среди open‑weight‑моделей, сопоставимые с закрытыми моделями уровня Claude Opus 4.5 на ряде агентных и кодовых бенчмарков.[4]

Безопасность (SafetyBench)

По SafetyBench (китайская подвыборка) GLM‑4 (0520) достигает 87,2% по интегральному показателю, что сопоставимо с Claude 3 Opus (87,5%) и немного ниже GPT‑4 (≈88–89,7%). Наиболее заметный разрыв по сравнению с GPT‑4 наблюдается по измерению «Physical Health» (физическая безопасность).[2]

Применение и экосистема

Диалоговые и ассистентные сценарии

ChatGLM‑серия и последующие модели используются в качестве диалоговых ассистентов, включая коммерческий сервис Zhipu Qingyan (chatglm.cn / chat.z.ai), с поддержкой многоязычного общения, многошагового диалога и инструкционного режима.[2]

Агентные системы и инструменты

GLM‑4 All Tools и последующие модели интегрируются в агентную платформу GLMs, позволяющую создавать пользовательские агенты, подключать встроенный Python‑интерпретатор, веб‑браузер, VLM/T2I‑модели (CogView3) и использовать внешние API. Поддерживаются составные задачи: веб‑поиск, анализ данных через Python, комбинированные цепочки инструментов. GLM‑5 фокусируется на задачах программной инженерии с длинным горизонтом планирования (agentic engineering) и тестировался на бенчмарках MCP‑Atlas и BrowseComp.[2][4]

Кодогенерация и разработка ПО

Семейство CodeGeeX (CodeGeeX‑13B, CodeGeeX2‑6B) и кодовые режимы GLM используются для генерации кода на нескольких языках, дополнения и рефакторинга, решения задач HumanEval и HumanEval‑X. На HumanEval‑X CodeGeeX2‑6B улучшает Pass@1 по сравнению с CodeGeeX‑13B (по данным авторов: +57% в Python, +71% в C++). Продукт CodeGeeX встроен в IDE‑плагины для разработчиков.[2]

Длинный контекст и документ‑центричные сценарии

GLM‑4‑9B‑Chat‑1M и старшие модели применяются для анализа больших документов и коллекций (до 1M токенов), суммирования, поиска в длинных документах, работы с длинным кодом.[2]

Инфраструктура развёртывания

Модели доступны через API‑платформу Z.ai / bigmodel.cn (tool calling, agent frameworks). Открытые версии поддерживают локальное развёртывание через vLLM, SGLang. Поддержка Huawei Ascend позволяет развёртывание без NVIDIA‑оборудования. Открытые модели серии скачаны свыше 10 млн раз на Hugging Face (2023–2024).[2][4][13]

Ограничения и открытые проблемы

  • Языковой дисбаланс: серия GLM преимущественно предобучена на китайском и английском языках; качество на других языках существенно ниже, что явно указано в техническом отчёте arXiv:2406.12793.[2]
  • Воспроизводимость бенчмарков: большинство сравнительных результатов приведены в технических отчётах самих разработчиков. Независимая внешняя валидация на стандартизированных платформах (LMSYS Chatbot Arena, Open LLM Leaderboard) для всех версий не систематизирована.
  • Loss spikes при масштабировании: обучение GLM‑130B сопровождалось многочисленными всплесками функции потерь, требовавшими ручного вмешательства; авторы документируют это как нерешённую инженерную проблему при масштабировании.[8]
  • Зависимость от аппаратного обеспечения: начиная с GLM‑5, обучение перенесено на Huawei Ascend / MindSpore; независимое воспроизведение на иных аппаратных платформах затруднено.[4]
  • Alignment и безопасность: несмотря на применение RLHF, проблемы отказа от ответа, согласованности в многоходовых диалогах и обхода механизмов безопасности остаются актуальными; авторы arXiv:2406.12793 указывают, что RLHF помогает, но не решает проблемы полностью.[2]
  • Галлюцинации: как и в других LLM, проблема фактологических ошибок документирована; количественные оценки варьируются в зависимости от задачи и методологии.
  • Математическое рассуждение: GLM‑4 уступает GPT‑4 Turbo на MATH и ряде задач сложной арифметики, хотя использует специализированные методики (ChatGLM‑Math).[2]
  • Агентные задачи: по AgentBench остаётся разрыв в задачах, связанных с низкоуровневой ОС‑интеракцией и сложными логическими пазлами; качество длинного горизонта (long‑horizon) остаётся нерешённой задачей (накопление ошибок в chained задачах).[2][4]
  • Код и практические задачи: на NaturalCodeBench GLM‑4 (overall 47,1%) ниже GPT‑4 Turbo (53,8%), хотя сопоставим с Claude 3 Opus (48,3%).[2]

Этические и регуляторные аспекты

Серия GLM разрабатывается в соответствии с требованиями китайского регулятора (Управление по киберпространству КНР, CAC) в части регистрации генеративных моделей и прохождения оценки безопасности. Пост‑обучение включает SFT и RLHF для снижения токсичности и вредного контента.[2]

В техническом отчёте GLM‑4 описан многоступенчатый процесс управления рисками:[2]

  • Предварительная очистка предобучающего корпуса от текстов с потенциально опасным содержанием.
  • Фильтрация выравнивающих данных по критериям безопасности.
  • Red‑team‑тестирование: формирование сложных вредоносных запросов для дообучения.
  • Использование SafetyBench для количественной оценки безопасности (7 измерений).

Ранние модели (GLM‑130B) демонстрируют более низкий уровень предвзятости по CrowS‑Pairs и сниженную токсичность по RealToxicPrompts по сравнению с GPT‑3 и OPT за счёт билингвального обучения.[8][2]

Выпуск GLM‑5 под лицензией MIT означает отсутствие формальных ограничений на коммерческое использование открытых весов, что влечёт стандартные риски неконтролируемого применения, характерные для открытых LLM.[4] Вопросы смещений (bias) в корпусах предобучения, специфичных для китайского языка и культурного контекста, не систематически исследованы в публичных работах на момент написания статьи.

Перспективы и направления исследований

На основании опубликованных технических отчётов и сопроводительных материалов Z.ai выделяются следующие задекларированные направления:[3][4]

  • Масштабирование MoE‑архитектур при снижении стоимости активных параметров на токен.
  • Развитие асинхронных алгоритмов агентного RL для длинногоризонтных задач.
  • Улучшение механизмов разреженного внимания (DSA) для контекстов свыше 200K токенов.
  • Мультимодальное рассуждение: развитие GLM‑4.1V‑Thinking в сторону понимания видео и документов.
  • Снижение зависимости от внешних API при агентном выполнении задач через обучение конечных агентов на реальных взаимодействиях.
  • Оптимизация под отечественное (для КНР) аппаратное обеспечение (Huawei Ascend, Cambricon) и снижение углеродного следа обучения.
  • Интеграция с робототехническими и научно‑вычислительными платформами.

См. также

Литература

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 Du, Z., Qian, Y., Liu, X., Ding, M., Qiu, J., Yang, Z., Tang, J. (2022). GLM: General Language Model Pretraining with Autoregressive Blank Infilling. ACL 2022. https://aclanthology.org/2022.acl-long.26/
  2. 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 2,20 2,21 2,22 2,23 2,24 2,25 2,26 2,27 2,28 2,29 2,30 2,31 2,32 2,33 2,34 2,35 2,36 2,37 2,38 2,39 2,40 2,41 2,42 2,43 2,44 2,45 2,46 2,47 Team GLM. (2024). ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arXiv:2406.12793. https://arxiv.org/abs/2406.12793
  3. 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 GLM-4.5 Team. (2025). GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models. arXiv:2508.06471. https://arxiv.org/abs/2508.06471
  4. 4,00 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 GLM-5 Team. (2026). GLM-5: from Vibe Coding to Agentic Engineering. arXiv:2602.15763. https://arxiv.org/abs/2602.15763
  5. Wikipedia. Zhipu AI. https://en.wikipedia.org/wiki/Zhipu_AI (дата обращения: 01.03.2026)
  6. Pandaily. Zhipu AI's Rise: From Tsinghua Lab to China's First Foundation Model Company. https://pro.pandaily.com/p/zhipu-ais-rise-from-tsinghua-lab (дата обращения: 01.03.2026)
  7. 7,0 7,1 7,2 7,3 Du, Z. et al. (2021). GLM: General Language Model Pretraining with Autoregressive Blank Infilling. arXiv:2103.10360. https://arxiv.org/abs/2103.10360
  8. 8,0 8,1 8,2 8,3 8,4 8,5 8,6 Zeng, A. et al. (2022). GLM-130B: An Open Bilingual Pre-trained Model. ICLR 2023. arXiv:2210.02414. https://arxiv.org/abs/2210.02414
  9. THUDM. ChatGLM-6B README. https://github.com/THUDM/ChatGLM-6B (дата обращения: 01.03.2026)
  10. 10,0 10,1 Z.ai. GLM-4.7: Advancing the Coding Capability. Официальный блог Z.ai, 22.12.2025. https://z.ai/blog/glm-4.7 (дата обращения: 01.03.2026)
  11. Zhipu AI. (2025). GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning Models. arXiv:2507.01006. https://arxiv.org/abs/2507.01006
  12. Zeng, A. et al. (2024). GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot. arXiv:2412.02612. https://arxiv.org/abs/2412.02612
  13. Hugging Face. zai-org/GLM-4.5. https://huggingface.co/zai-org/GLM-4.5 (дата обращения: 01.03.2026)