ERNIE (Baidu)

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

ERNIE (Baidu) — серия предобученных языковых моделей (Large Language Model, LLM) и мультимодальных фундаментальных моделей, разрабатываемых компанией Baidu с 2019 года под общим названием Enhanced Representation through kNowledge IntEgration (усиленное представление через интеграцию знаний). Серия ориентирована на повышение качества семантического понимания и генерации за счёт явной интеграции внешних знаний из графов знаний (Knowledge Graph, KG), онтологий и энциклопедий в процесс предобучения.[1][2]

Модели серии эволюционировали от ранних вариантов на базе BERT с маскированием сущностей и фраз (ERNIE 1.0, 2.0) через крупномасштабные унифицированные архитектуры (ERNIE 3.0, ERNIE 3.0 Titan) к мультимодальным системам на основе Mixture-of-Experts (MoE) с открытым исходным кодом (ERNIE 4.5) и нативным омнимодальным моделям (ERNIE 5.0). Серия поддерживает задачи понимания текста (Natural Language Understanding, NLU), генерации текста (Natural Language Generation, NLG) и, в поздних версиях, мультимодальные задачи (текст, изображение, видео, аудио), с акцентом на китайский язык и поддержкой многоязычности.[2][3][4]

История и предпосылки

Разработка серии ERNIE началась в 2019 году в исследовательском подразделении Baidu в ответ на успех модели BERT (Devlin et al., 2018) и необходимость адаптации предобученных моделей под китайский язык, в котором отсутствие явных пробелов между словами и высокая доля многозначных иероглифов усложняют захват семантических единиц (сущностей, фраз).[1]

ERNIE 1.0 (2019)

Первая модель серии (Sun et al., arXiv:1904.09223, апрель 2019) представила стратегию многоуровневого маскирования знаний (knowledge masking) для BERT‑подобной архитектуры: вместо случайного маскирования отдельных токенов модель маскирует целые сущности и фразы, определяемые на основе распознавания именованных сущностей (Named Entity Recognition, NER) и фразовых паттернов.[1]

Архитектура ERNIE 1.0 основана на Transformer‑энкодере (12 слоёв, скрытая размерность 768, 12 голов внимания). Дополнительно введена задача Dialogue Language Model (DLM) для обучения на диалоговых данных. Модель обучена на ~173 млн китайских предложений из корпусов Wikipedia, Baidu Baike, новостей и форума Baidu Tieba. На момент публикации ERNIE 1.0 достигла state‑of‑the‑art (SOTA) результатов на пяти китайских задачах NLP: XNLI (точность 78,4 % на тесте против 77,2 % у BERT), MSRA‑NER (F1 93,8 % против 92,6 %).[1]

ERNIE 2.0 (2019)

ERNIE 2.0 (Sun et al., arXiv:1907.12412, июль 2019; принята на конференцию AAAI 2020) ввела фреймворк непрерывного многозадачного предобучения (continual multi‑task pre‑training), в котором к общему трансформеру последовательно (инкрементально) добавляются новые предобучающие задачи без полного переобучения модели.[5]

Задачи предобучения ERNIE 2.0 разделены на три группы:

  • Word‑aware — маскирование знаний (knowledge masking), предсказание регистра (capitalization prediction), связь токена с документом (token‑document relation).
  • Structure‑aware — переупорядочивание предложений (sentence reordering), определение расстояния между предложениями (sentence distance).
  • Semantic‑aware — предсказание дискурсивных отношений (discourse relation prediction), релевантность для информационного поиска (IR relevance prediction).[5]

Модель обучена на английских и китайских корпусах (энциклопедии, книги, Reddit, поисковые логи). Результаты: средний балл GLUE для base‑модели составил 80,6 (против 78,3 у BERT), для large‑модели — 83,6; ERNIE 2.0 превзошла BERT и XLNet на 16 задачах.[5]

ERNIE 3.0 (2021)

Фреймворк ERNIE 3.0 (Sun et al., arXiv:2107.02137, июль 2021) объединил автоэнкодерную (auto‑encoding, AE) и авторегрессионную (auto‑regressive, AR) парадигмы предобучения в единой архитектуре, разделённой на универсальный модуль представлений (Universal Representation Module) и задачеспецифические модули (Task‑specific Representation Modules) для NLU и NLG.[2]

Модель с 10 млрд параметров обучена на 4 ТБ китайского текста (11 категорий: Baidu Baike, Wikipedia, поисковые логи, вопросно‑ответные системы, доменные тексты) и графе знаний с более чем 50 млн фактов. ERNIE 3.0 достигла SOTA на 54 китайских задачах NLP; на англоязычном бенчмарке SuperGLUE — 90,6 % (по состоянию на 3 июля 2021 года, выше человеческого ориентира 89,8 %).[2]

ERNIE 3.0 Titan (2021)

В работе «ERNIE 3.0 Titan: Exploring Larger‑scale Knowledge Enhanced Pre‑training for Language Understanding and Generation» (Wang et al., arXiv:2112.12731, декабрь 2021) описано масштабирование фреймворка ERNIE 3.0 до плотной (dense) модели с 260 млрд параметров, реализованной на платформе PaddlePaddle.[6]

Titan ввёл дополнительные механизмы: самосупервизируемый adversarial loss для оценки достоверности генерируемого текста, controllable language modeling loss для управления стилем, темой, тональностью и длиной генерации, а также онлайн‑дистилляцию (On‑the‑Fly Distillation, OFD) для получения компактных моделей‑студентов в ходе предобучения. Модель оценивалась на 68 наборах данных и, по данным авторов, превзошла предшествующие модели на всех 68 датасетах.[6]

ERNIE Bot и коммерческие версии (2023–2025)

В марте 2023 года Baidu выпустила чат‑бот ERNIE Bot (Wenxin Yiyan, 文心一言) на базе моделей ERNIE 3.x и PLATO (диалоговая модель). Публичный доступ был открыт в августе 2023 года после одобрения регуляторов. Обновления включали ERNIE 3.5 (июнь 2023) и ERNIE 4.0 (октябрь 2023).[7][8]

По данным отчёта SuperBench Университета Цинхуа, ERNIE Bot 4.0 занял первое место среди китайских LLM по интегральной метрике, показав сильные результаты в китайском языковом понимании и следовании инструкциям.[9][10]

В 2022 году параллельно основной языковой линейке было представлено мультимодальное расширение ERNIE‑ViLG 2.0 (arXiv:2210.15257) — модель генерации изображений по тексту (text‑to‑image), что стало одним из первых шагов в направлении мультимодальности.[11]

В 2024 году на конференции WAVE SUMMIT Baidu представила ERNIE 4.0 Turbo — оптимизированную версию для высокоскоростных приложений, способную генерировать текст длиной более тысячи слов примерно за 20 секунд при сохранении качества.[12]

ERNIE 4.5 (2025)

В июне 2025 года Baidu опубликовала технический отчёт ERNIE 4.5, представляющий семейство из 10 моделей: текстовые LLM и мультимодальные модели (Vision‑Language, VL). Архитектура основана на гетерогенном Mixture-of-Experts (MoE) с разделением экспертов по модальностям. Варианты включают MoE‑модели с до 424 млрд общих и 47 млрд активных параметров, а также плотную модель с 0,3 млрд параметров. Семейство выпущено под лицензией Apache 2.0 на Hugging Face и GitHub (PaddlePaddle/ERNIE).[3]

ERNIE 5.0 (2026)

В феврале 2026 года опубликован технический отчёт ERNIE 5.0 (arXiv:2602.04705) — нативная омнимодальная авторегрессионная модель с ультраразрежённым MoE (ultra‑sparse MoE), поддерживающая совместное моделирование текста, изображений, аудио и видео. Модель занимала высокие позиции на лидерборде LMArena.[4][13]

Теоретические основы и архитектурные принципы

Маскирование знаний (Knowledge Masking)

Ключевой принцип ранних моделей серии — интеграция структурированного знания в процесс предобучения через модифицированные стратегии маскирования. В отличие от стандартного Masked Language Modeling (MLM), где маскируются отдельные токены, ERNIE 1.0 маскирует целые семантические единицы: сущности (определяемые через NER) и фразы. Для сущности E={t1,,tk} маскируется вся последовательность токенов с заданной вероятностью p. Такой подход вынуждает модель опираться на более широкий контекст и выучивать связи между сущностями.[1]

ERNIE 2.0 развила этот подход, добавив инкрементальное многозадачное обучение: задачи лексического, структурного и семантического уровней добавляются последовательно, при этом ранее выученные знания сохраняются благодаря механизму непрерывного предобучения (continual pre‑training).[5]

Унифицированный фреймворк ERNIE 3.0

Фреймворк ERNIE 3.0 базируется на разделении архитектуры на два уровня:[2][6]

  • Universal Representation Module — общий многослойный Transformer‑XL, обучаемый на многообразии предобучающих задач и извлекающий общие лексические и синтаксические признаки. В версии Titan этот модуль содержит 48 слоёв, скрытое представление размером 12288, 192 головы внимания и внутренний размер feed‑forward сети 196608 (16×dmodel).
  • Task‑specific Representation Modules — отдельные модули для NLU (двунаправленное внимание) и NLG (однонаправленное внимание с рекуррентной памятью Transformer‑XL), каждый с 12 слоями, размером скрытого вектора 768 и 12 головами внимания.

Интеграция автоэнкодерной и авторегрессионной парадигм позволяет одной модели обеспечивать высокие показатели на NLU‑бенчмарках (BERT‑подобные задачи) и на NLG‑бенчмарках (GPT‑подобные задачи).[2]

Universal Knowledge‑Text Prediction (UKTP)

Задача UKTP является центральным механизмом интеграции знаний в ERNIE 3.0/Titan. Модель получает пару (тройка из графа знаний, предложение из энциклопедии) и должна либо предсказать отношение в тройке, используя текст, либо предсказать маскированные токены в тексте, используя информацию из тройки.[6]

При предсказании отношения r в тройке (h,r,t), связанной с текстом x, задача формулируется как многоклассовая классификация:

Pθ(rx,h,t)=softmax(Wfθ(x,h,t)+b)

где fθ — выход трансформера по позициям упоминаний головной и хвостовой сущностей, W,b — параметры классификатора, θ — параметры модели.[6]

Механизмы достоверной и управляемой генерации (Titan)

ERNIE 3.0 Titan ввёл два дополнительных типа функций потерь.[6]

Самосупервизируемый adversarial loss. Формируется датасет Da={Doriginal,Dgenerated}, где Doriginal — реальные параграфы, а Dgenerated — тексты, сгенерированные предыдущей версией ERNIE по префиксу исходных параграфов. Задача — бинарная классификация (оригинал / генерация) по скрытому состоянию специального токена [CLS]:

La(Da)=n=1|Da|logPθ(yn=Ih[CLS](n)Doriginalh[CLS](n))

где h[CLS](n) — векторное представление [CLS] для n‑го примера, I — индикатор принадлежности к оригинальным текстам.[6]

Controllable language modeling loss. Каждый обучающий пример сопровождается набором атрибутов (промпт), описывающих жанр, тему, ключевые слова, тональность и длину. Потеря комбинирует безусловное и условное языковое моделирование:

Lc(Dc)={n=1|Dc|logPθ(xt(n)x<t(n)),если p0,5,n=1|Dc|logPθ(xt(n)x<t(n),promptsn),если p>0,5,

где p — случайная величина для чередования режимов, xt(n)t‑й токен n‑го примера. Такое определение предотвращает чрезмерную зависимость модели от промптов.[6]

Гетерогенная MoE‑архитектура (ERNIE 4.5)

ERNIE 4.5 вводит гетерогенную мультимодальную архитектуру Mixture-of-Experts с разделением экспертов по модальностям: текстовые эксперты и визуальные эксперты (последние имеют примерно 1/3 размера текстовых). Маршрутизация токенов осуществляется с изоляцией по модальности (modality‑isolated routing) и применением ортогонализирующего штрафа для маршрутизатора (router orthogonalization loss, коэффициент порядка 103) для обеспечения специализации экспертов. Используется 3D RoPE (Rotary Position Embeddings) для позиционного кодирования временного, высотного и широтного измерений в видеоданных. Механизм FlashMask применяется для эффективной работы с длинным контекстом (до 131 тыс. токенов) с O(N) масками.[3]

Предобучение ERNIE 4.5 проводится в несколько стадий: сначала обучение только на текстовых данных, затем на визуальных данных, и в заключительной фазе — совместное обучение на мультимодальных данных (text‑only → vision‑only → joint). Для обработки изображений используется адаптивный ViT‑энкодер (Vision Transformer) с механизмом pixel shuffle для выравнивания представлений разных модальностей. Поддерживается обработка длинных видео (до 32 тыс. токенов) с адаптивной выборкой кадров (adaptive frame sampling).[3]

Нативная омнимодальность (ERNIE 5.0)

ERNIE 5.0 реализует нативное авторегрессионное моделирование нескольких модальностей (текст, изображение, аудио, видео) в единой архитектуре с ультраразрежённым MoE, в котором на каждом шаге активируется менее 3 % от общего числа экспертов. В качестве предобучающей задачи используется Next‑Group‑of‑Tokens Prediction — предсказание группы токенов вместо одного, что повышает эффективность обучения. Для аудиомодальности применяется иерархический кодек (hierarchical codec). Технология elastic training позволяет генерировать суб‑модели с различной глубиной, шириной и степенью разрежённости в рамках одного обучающего прогона.[4]

Предобучающие задачи и данные

Задачи предобучения ERNIE 3.0 / Titan

В ERNIE 3.0 и Titan используются следующие группы предобучающих задач:[2][6]

Word‑aware задачи:

  • Knowledge Masked Language Modeling — фразовое и сущностное маскирование для обучения зависимостям на локальном и глобальном контекстах.
  • Document Language Modeling — авторегрессионное моделирование документов с длиной до 512 токенов и использованием рекуррентной памяти Transformer‑XL.

Structure‑aware задачи:

  • Sentence Reordering — для параграфа, случайно разделённого на m сегментов и перетасованного, модель решает задачу k‑классовой классификации с k=n=1mn!, восстанавливая исходный порядок.
  • Sentence Distance — 3‑классовая классификация: смежные предложения, несмежные в том же документе, предложения из разных документов.

Knowledge‑aware задачи:

  • Universal Knowledge‑Text Prediction (UKTP) — совместное моделирование текста и тройки графа знаний.
  • Credible and Controllable Generations — комбинация adversarial loss и controllable LM loss.

Предобучающие данные

Для ERNIE 3.0/Titan используется ERNIE 3.0 Corpus — китайский корпус объёмом около 4 ТБ в 11 категориях, включающий веб‑страницы, поисковые логи, вопросно‑ответные данные, художественные, правовые, финансовые и медицинские тексты, новеллы и поэзию. Поверх корпуса сформирован граф знаний с более чем 50 млн фактов.[2][6]

Дополнительно для Titan формируются:

  • Adversarial dataset — 2 млн оригинальных параграфов и соответствующие «негативные» параграфы, сгенерированные ERNIE 3.0 по префиксу первых 1–3 предложений оригинала, длиной до 512 токенов.
  • Controllable dataset — тексты, снабжённые атрибутами жанра, темы (26 тематик), ключевых слов, тональности (positive/negative/neutral) и длины. Атрибуты жанра кодируются обучаемыми «мягкими промптами» (число промптов для жанра случайно выбирается от 0 до 64).[6]

Поздние версии (ERNIE 4.5, 5.0) используют расширенные мультимодальные корпуса (текст, изображения, видео, аудио), включая курированный веб‑контент, научные публикации и синтетические данные.[3][4]

Обучение и распределённая оптимизация

Предобучение ERNIE 3.0 Titan проводилось с использованием оптимизатора Adam (скорость обучения 104, β1=0,9, β2=0,95, L2‑регуляризация 0,1, обрезка нормы градиента до 1,0), максимальной длины контекста 512 и длины рекуррентной памяти 128 для генеративных задач. Применялась прогрессивная схема обучения (ускоренная сходимость на первых 4000 шагов) и линейное затухание скорости обучения.[6]

4D‑гибридная параллелизация

Для обучения плотной модели с 260 млрд параметров на гетерогенных кластерах (GPU NVIDIA V100 и NPU Ascend 910) в PaddlePaddle реализована 4D‑гибридная параллелизация:[6]

  • Data parallelism (DP) — репликация модели на нескольких устройствах с раздельной обработкой батчей.
  • Tensor model parallelism (MP) — разделение параметров и активаций трансформера внутри слоёв по устройствам.
  • Pipeline model parallelism (PP) — распределение слоёв модели по конвейеру.
  • Group Sharded — усовершенствованный вариант ZeRO‑подобного sharded‑data‑parallel для уменьшения дублирования состояний оптимизатора.

В отчёте приводятся данные о слабом масштабировании до тысяч карт Ascend 910 с эффективностью порядка 91,7 % по пропускной способности.[6]

Обучение ERNIE 4.5

Обучение ERNIE 4.5 проводилось на кластере из 2016 GPU NVIDIA H800 с достижением Model FLOPs Utilization (MFU) 47 %. Использовались смешанная точность FP8, отказоустойчивые контрольные точки (Zero Cost Checkpoint, восстановление менее чем за 8 минут) и прогрессивное обучение с увеличением длины последовательности и размера батча.[3]

Онлайновая дистилляция

Для снижения требований к вычислительным ресурсам при развёртывании ERNIE 3.0 Titan используется онлайн‑дистилляция, при которой модель‑учитель и несколько моделей‑студентов обучаются одновременно:[6]

  • On‑the‑Fly Distillation (OFD) — учительские логиты и представления используются для обучения студентов на тех же шагах обучения.
  • Teacher assistants — промежуточные по размеру модели, уменьшающие разрыв в ёмкости между учителем и конечными студентами.
  • Auxiliary Layer Distillation (ALD) — дополнительный слой в студенте, отбрасываемый при fine‑tuning, для лучшего совпадения внутренних представлений.

Постобучение и выравнивание

Коммерческие версии ERNIE (начиная с ERNIE Bot) проходят этапы постобучения:[7][3]

  • Supervised Fine‑Tuning (SFT) — дообучение на размеченных инструкционных данных (в ERNIE 4.5 — 2,3 млн примеров).
  • Reinforcement Learning from Human Feedback (RLHF) — выравнивание поведения модели с помощью обратной связи от человека; применяются алгоритмы PPO (Proximal Policy Optimization) и DPO (Direct Preference Optimization).
  • Unified Preference Optimization (UPO) — унифицированный метод оптимизации предпочтений, введённый в ERNIE 4.5.
  • Reinforcement Learning with Verifiers (RLVR) — обучение с подкреплением с использованием верификаторов для проверки корректности ответов; применяется метод GRPO (Group Relative Policy Optimization).
  • Режимы рассуждения (thinking modes) — модели 4.5 поддерживают режимы с размышлением (reflection, planning) и без него.

Ключевые результаты и бенчмарки

Сводная таблица эволюции моделей

Версия Год Параметры Архитектура Ключевые бенчмарки Источник
ERNIE 1.0 2019 ~110 млн (base) Transformer‑энкодер (BERT‑подобный) XNLI 78,4 %; MSRA‑NER F1 93,8 % [1]
ERNIE 2.0 2019 ~110–340 млн Continual multi‑task GLUE 80,6 (base) / 83,6 (large); 16 задач SOTA [5]
ERNIE 3.0 2021 10 млрд Unified Transformer‑XL (AE+AR) SuperGLUE 90,6 % (> human 89,8 %); 54 кит. задачи SOTA [2]
ERNIE 3.0 Titan 2021 260 млрд (dense) Dense + controllable generation 68 датасетов SOTA; zero/few‑shot [6]
ERNIE 4.5 2025 0,3–424 млрд (MoE, 47 млрд акт.) Heterogeneous multimodal MoE C‑Eval 90,6 %; MMLU 86,5 %; MMMU 67,3–70 % [3]
ERNIE 5.0 2026 ~2,4 трлн (ultra‑sparse MoE) Unified autoregressive multimodal MoE LMArena Elo ~1460 (топ‑10 глобально) [4]

Результаты ERNIE 3.0 и Titan

ERNIE 3.0 (10 млрд параметров) на англоязычном бенчмарке SuperGLUE достигла среднего результата 90,6, превосходящего человеческий ориентир (89,8) и показатели GPT‑3, T5 и DeBERTa на момент публикации. ERNIE 3.0 Titan (260 млрд) оценивалась на 68 наборах данных, включая задачи классификации, NLI, QA и генерации; авторы сообщают о превосходстве над предшествующими моделями на всех 68 датасетах. Эти результаты являются данными первоисточников; независимое воспроизведение описано ограниченно.[2][6]

Результаты ERNIE 4.5

По данным технического отчёта 2025 года, ERNIE 4.5 (300B‑A47B, пост‑тренинг) показывает следующие результаты на текстовых и мультимодальных бенчмарках:[3]

Бенчмарк ERNIE‑4.5‑300B‑A47B Условия
C‑Eval 90,6 % 5‑shot
CMMLU 90,2 %
MMLU 86,5 % стандартный
IFEval 88,0 % instruction following
GSM8K 91,8 %
MMMU 67,3–70,0 % non‑thinking / thinking
MathVista 78,8 % thinking mode
OCRBench 883

По данным отчёта, ERNIE 4.5 превзошла DeepSeek‑V3 на 22 из 28 бенчмарков; мультимодальные варианты (ERNIE‑4.5‑VL‑424B‑A47B) показали конкурентные результаты на задачах визуального рассуждения. В ряде задач визуального рассуждения и технической интерпретации изображений (анализ схем, инженерных диаграмм) сообщаются результаты выше, чем у отдельных моделей GPT и Gemini.[3][14]

Сравнение ERNIE 4.5 с конкурентами (выборочные бенчмарки, пост‑тренинг, по данным технического отчёта 2025):

Бенчмарк ERNIE‑4.5‑300B‑A47B DeepSeek‑V3‑671B‑A37B Qwen3‑235B‑A22B Примечание
C‑Eval 90,6 % 5‑shot
MMLU 86,5 % сопоставимо стандартный
IFEval 88,0 % 83,2 % instruction following
MMMU 67,3–70,0 % thinking / non‑thinking
MathVista 78,8 % 77,6 % (Qwen2.5‑VL) thinking mode

Условия воспроизведения: стандартные протоколы (5‑shot / zero‑shot); датасеты открытые (C‑Eval 2023+, MMLU, MMMU). Прочерк («—») означает, что сопоставимые данные на тех же условиях в отчёте не приведены.[3]

Оценки ERNIE Bot 4.0

Отчёт SuperBench Университета Цинхуа ранжирует коммерческие LLM по набору задач (языковое понимание, математика, программирование, мультизадачность). ERNIE Bot 4.0 занял первое место среди китайских моделей, опережая GLM‑4 (Zhipu AI) примерно на 0,41 балла по интегральной метрике; модели GPT‑4 и Anthropic Claude‑3 оставались выше в глобальном рейтинге. ERNIE Bot 4.0 показывал сильные результаты в китайском понимании текста и следовании инструкциям при более слабых показателях по программированию и некоторым англоязычным задачам.[9][10]

Применение

Продукты и сервисы Baidu

Модели серии ERNIE интегрированы в экосистему продуктов Baidu:[7][8][3]

  • ERNIE Bot (Wenxin Yiyan) — чат‑бот с поддержкой мультимодальной генерации (текст, изображения, видео, аудио). По данным Baidu, число ежемесячных активных пользователей превышает 200 млн (2024–2025). С 2025 года ERNIE Bot доступен бесплатно.[7]
  • Поиск Baidu — генерация ответов и AI‑функции в поисковой выдаче; по данным Baidu, до 70 % верхних результатов обогащены AI‑компонентами.
  • Qianfan (MaaS‑платформа) — API для корпоративных клиентов; по данным Baidu, более 760 тыс. предприятий используют платформу, число ежедневных вызовов API превышает 1,5 млрд (2024). Среди клиентов — Lenovo, Trip.com и другие.[7]
  • Comate — AI‑ассистент для программирования.
  • Wenxin Yige — генерация изображений на базе моделей ERNIE‑ViLG.[11]
  • Интеграции с внешними партнёрами: Samsung Galaxy (для китайского рынка), цифровые аватары, плагины (поиск, анализ файлов).[7]

Отраслевые применения

Модели применяются в следующих областях:[7][3]

  • Вопросно‑ответные системы в доменных областях (право, медицина, финансы) с использованием знание‑усиленного предобучения.
  • Генерация и редактирование текстов на китайском языке (новости, маркетинговые тексты, креативный контент).
  • Мультимодальные задачи: анализ изображений, инженерных схем, видео и табличных данных (в версиях 4.5 и выше).
  • Образование (персонализированное обучение), робототехника (планирование задач), автономное вождение (Apollo).

Открытый код

Начиная с ERNIE 4.5, все 10 вариантов семейства выпущены под лицензией Apache 2.0 с инструментарием ERNIEKit (поддержка SFT, LoRA, DPO, инференс на PaddlePaddle/FastDeploy). Код более ранних версий (ERNIE 1.0–3.0) доступен на GitHub PaddlePaddle/ERNIE.[3][15]

Ограничения и открытые проблемы

Архитектурные и датасетные ограничения

ERNIE 3.0 Titan при 260 млрд параметров ограничена длиной контекста 512 токенов для отдельного модуля, что ограничивает моделирование текстов большой длины без дополнительных механизмов (chunking, внешняя память). Обучение проводится преимущественно на китайском корпусе, что приводит к неоднородности качества между китайскими и другими языками.[6]

Интеграция графа знаний улучшает работу со структурированными фактами, однако точность и полнота знаний ограничены качеством самого графа и процедурой сопоставления «тройка–текст» (entity linking, relation alignment), что в ряде случаев приводит к ошибочным или неполным ассоциациям.[6]

Галлюцинации и достоверность

Adversarial loss и controllable LM loss улучшают устойчивость к недостоверным генерациям, однако полностью устранить проблему галлюцинаций (генерации фактически неверных утверждений) не удаётся. Параметры adversarial‑классификатора обучаются на данных, где «генерированный» текст создаётся предыдущей версией ERNIE, что ограничивает спектр распознаваемых ошибочных паттернов.[6]

Социальные предвзятости

Исследование, опубликованное в PeerJ Computer Science (2025), анализирует социальные предвзятости в китайских LLM (ERNIE и Qwen) с использованием 240 социальных групп и более 30 тыс. сгенерированных описаний. Результаты показывают, что ERNIE генерирует меньше негативного и стереотипного контента, чем Baidu Search или Qwen (примерно 1/10 слов‑кандидатов с негативной коннотацией у ERNIE против 1/3 у Qwen). Вместе с тем определённая распространённость стереотипов, включая потенциально оскорбительные описания, сохраняется.[16][17]

Воспроизводимость

Часть моделей серии (ERNIE 3.0 Titan, коммерческие ERNIE Bot 4.0 и 5.0) не доступна в виде полностью открытого кода и весов, что ограничивает воспроизводимость бенчмарков и возможность независимой оценки. С выпуском ERNIE 4.5 под Apache 2.0 ситуация улучшилась, однако архитектуры и настройки обучения могут отличаться от описанных в ранних публикациях.[3][6]

Медицинская безопасность

Исследования использования ERNIE Bot в медицинских сценариях (Si et al., 2025) выявили тенденцию к избыточным назначениям: 91,9 % ненужных тестов и 57,8 % ненужных медикаментов в модельных сценариях, а также возрастные и социально‑экономические диспропорции в рекомендациях.[18]

Этические и регуляторные аспекты

Модели серии ERNIE функционируют в рамках китайского регулирования генеративного AI, в частности «Временных мер по управлению генеративными сервисами AI» (Interim Measures for Generative AI Services, 2023), которые предусматривают обязательную оценку безопасности, регистрацию алгоритмов и ограничения на контент.[7][17]

ERNIE Bot демонстрирует высокий уровень отказа на запросы, связанные с чувствительными политическими темами, в соответствии с национальным законодательством. Исследования (Pan et al., 2026) анализируют политическую цензуру в LLM китайского происхождения, включая модели Baidu.[19]

Публикации Baidu не всегда подробно описывают процедуры аудита модельного поведения, критерии фильтрации контента и баланс между локальными нормативными требованиями и общими принципами этики AI, что остаётся открытой областью для независимых исследований.[17]

Перспективы и направления исследований

На основании технических отчётов и заявлений Baidu выделяются следующие направления развития серии ERNIE:

  • Дальнейшая мультимодализация (текст–изображение–видео–аудио), включая обработку плотных технических визуальных данных (инженерные схемы, медицинские изображения).[3][4]
  • Комбинирование плотных и MoE‑архитектур для баланса между качеством и вычислительной эффективностью при очень больших суммарных размерах моделей.[3]
  • Развитие агентных систем (GenFlow, Famou) и инструментов структурированной генерации (JSON, API‑вызовы) для интеграции в производственные workflows.[3]
  • Повышение эффективности обучения: elastic training, улучшенное масштабирование MoE (MFU), квантование (W4A8, 2‑bit для развёртывания на одном GPU).[3]
  • Исследования по снижению предвзятостей в китайских LLM с учётом культурно‑специфических аспектов и развитие методик бенчмаркинга для китайского языка и мультимодальных задач.[16][17]
  • Улучшение рассуждения в длинном контексте, верифицируемое обучение с подкреплением (verifiable RL) и адаптация к доменам с ограниченными данными через синтетические корпуса.[3][4]

Сравнение с другими китайскими LLM

ERNIE конкурирует с рядом крупных китайских LLM, среди которых Qwen (Alibaba), GLM / ChatGLM (Zhipu AI), DeepSeek (DeepSeek AI) и Tongyi Qianwen. Основные отличия серии ERNIE — акцент на интеграцию графов знаний в предобучение (knowledge enhancement), тесная интеграция с экосистемой Baidu (поиск, облако, API) и ориентация на платформу PaddlePaddle. По результатам независимых рейтингов (SuperBench, LMArena), модели серии ERNIE занимают высокие позиции среди китайских LLM, особенно в задачах понимания и следования инструкциям на китайском языке.[9][13][16]

См. также

Литература

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 Sun, Y. et al. (2019). ERNIE: Enhanced Representation through Knowledge Integration. arXiv:1904.09223. https://arxiv.org/abs/1904.09223
  2. 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 Sun, Y. et al. (2021). ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2107.02137. https://arxiv.org/abs/2107.02137
  3. 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 Baidu ERNIE Team (2025). ERNIE 4.5 Technical Report. https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
  4. 4,0 4,1 4,2 4,3 4,4 4,5 4,6 Wang, H. et al. (2026). ERNIE 5.0 Technical Report. arXiv:2602.04705. https://arxiv.org/abs/2602.04705
  5. 5,0 5,1 5,2 5,3 5,4 Sun, Y. et al. (2019). ERNIE 2.0: A Continual Pre-training Framework for Language Understanding. arXiv:1907.12412. AAAI 2020. https://arxiv.org/abs/1907.12412
  6. 6,00 6,01 6,02 6,03 6,04 6,05 6,06 6,07 6,08 6,09 6,10 6,11 6,12 6,13 6,14 6,15 6,16 6,17 6,18 6,19 6,20 Wang, S. et al. (2021). ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2112.12731. https://arxiv.org/abs/2112.12731
  7. 7,0 7,1 7,2 7,3 7,4 7,5 7,6 7,7 Wikipedia. Ernie Bot. https://en.wikipedia.org/wiki/Ernie_Bot
  8. 8,0 8,1 Baidu Research Blog (2023). ERNIE Bot: Baidu's Knowledge-Enhanced Large Language Model. https://research.baidu.com/Blog/index-view?id=183
  9. 9,0 9,1 9,2 DaoInsights (2024). Baidu's ERNIE bot tops the Tsinghua University LLM report ranking. https://daoinsights.com/news/far-ahead-baidus-ernie-bot-tops-the-tsinghua-university-llm-report-ranking/
  10. 10,0 10,1 Multiplatform.ai (2024). ERNIE Bot Leads Tsinghua University's LLM Report Rankings in China. https://multiplatform.ai/ernie-bot-leads-tsinghua-universitys-llm-report-rankings-in-china/
  11. 11,0 11,1 Feng, Z. et al. (2022). ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts. arXiv:2210.15257. https://arxiv.org/abs/2210.15257
  12. AI Base News (2025). Free Limited-Time Trial! Baidu's ERNIE 4.0 Turbo Launches on the ERNIE Bot Official Website. https://news.aibase.com/news/9958
  13. 13,0 13,1 ERNIE Official Blog (2025). ERNIE-5.0-Preview-1022 now ranks #2 globally on the LMArena Text leaderboard. https://ernie.baidu.com/blog/posts/ernie-5.0-preview-1022-release-on-lmarena/
  14. ArtificialIntelligence‑News (2025). Baidu ERNIE multimodal AI beats GPT and Gemini in benchmarks. https://www.artificialintelligence-news.com/news/baidu-ernie-multimodal-ai-gpt-and-gemini-benchmarks/
  15. PaddlePaddle/ERNIE. GitHub. https://github.com/PaddlePaddle/ERNIE
  16. 16,0 16,1 16,2 Song, X. et al. (2024). Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen. arXiv:2408.15696. https://arxiv.org/abs/2408.15696
  17. 17,0 17,1 17,2 17,3 PeerJ Computer Science (2025). Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies. https://peerj.com/articles/cs-2694/
  18. Si, Y. et al. (2025). Quality safety and disparity of an AI chatbot. PMC.
  19. Pan et al. (2026). Political censorship in large language models originating from China. PNAS Nexus.