Метрики качества LLM

Метрики качества больших языковых моделей (LLM) — это систематический подход и набор стандартизированных инструментов для измерения различных аспектов производительности языковых моделей, включая точность, безопасность, справедливость и надёжность^[1]. По мере того как LLM находят всё более широкое применение в критически важных областях, таких как здравоохранение, финансы и образование, возникает острая необходимость в их комплексной и объективной оценке^[2].

Метрики и бенчмарки служат нескольким ключевым функциям: они позволяют объективно сравнивать разные модели, отслеживать прогресс в их развитии, выявлять слабые места и обеспечивать прозрачность результатов для исследователей и практиков^[1].

Категории метрик

Метрики для оценки LLM можно разделить на несколько основных категорий: автоматические метрики, оценка с участием человека и специализированные метрики для оценки безопасности и надёжности.

Автоматические метрики

Эти метрики позволяют проводить быструю и масштабируемую оценку без участия человека.

Метрики на основе n-грамм

Традиционные метрики, измеряющие лексическое совпадение между сгенерированным и эталонным текстом.

BLEU (Bilingual Evaluation Understudy): Первоначально разработана для оценки качества машинного перевода. Измеряет точность совпадения n-грамм (последовательностей из n слов) и применяет штраф за слишком короткие сгенерированные тексты^[3].
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Фокусируется на полноте, измеряя, насколько хорошо n-граммы из эталонного текста представлены в сгенерированном. Особенно эффективна для оценки задач суммаризации^[3].
METEOR: Расширяет возможности BLEU, учитывая синонимы, однокоренные слова и морфологические варианты, что позволяет добиться лучшей корреляции с человеческими оценками^[3].

Семантические метрики

Эти метрики используют контекстуальные эмбеддинги для оценки семантической близости, а не только лексического совпадения.

BERTScore: Вычисляет семантическое сходство между токенами сгенерированного и эталонного текстов, используя эмбеддинги из модели BERT. Это позволяет распознавать семантическую эквивалентность даже при разной формулировке^[4].
MAUVE: Измеряет расхождение между распределениями машинного и человеческого текстов в пространстве эмбеддингов. Особенно эффективна для оценки открытой генерации, где нет фиксированного эталонного текста^[5].

Внутренние метрики языкового моделирования

Перплексия (Perplexity): Фундаментальная метрика, измеряющая, насколько хорошо языковая модель предсказывает последовательность текста. Она отражает неуверенность модели в предсказании следующего токена. Более низкие значения перплексии указывают на лучшую производительность^[6].
Точность и F1-мера: Широко применяются в задачах классификации и вопросно-ответных системах. F1-мера представляет собой гармоническое среднее между точностью и полнотой, обеспечивая сбалансированную оценку^[6].

Оценка с участием человека

Человеческая оценка остаётся «золотым стандартом», поскольку автоматические метрики часто не способны уловить тонкие аспекты качества, такие как связность, креативность и релевантность^[7].

Прямая оценка: Эксперты или краудсорсеры оценивают качество генерации по заданной шкале (например, от 1 до 5) по таким критериям, как беглость и связность.
Сравнительная оценка: Оценщикам предлагается сравнить выходы двух или более моделей и выбрать лучший (парное сравнение) или ранжировать их от лучшего к худшему.

Недостатками человеческой оценки являются высокая стоимость, сложность масштабирования и субъективность^[7].

Оценка с помощью LLM (LLM-as-a-Judge)

Новый подход, при котором одна (обычно более мощная) языковая модель используется для оценки ответов другой. Например, GPT-4 может ранжировать выходы моделей по заданным критериям. Этот метод обеспечивает масштабируемую альтернативу человеческой оценке, хотя и имеет свои проблемы, такие как чувствительность к стилю запросов и потенциальная предвзятость^[8].

Специализированные метрики и бенчмарки

Для оценки конкретных аспектов производительности и надёжности LLM используются специализированные метрики и бенчмарки.

Фактологическая надёжность

Оценивает способность модели генерировать правдивую информацию и не прибегать к галлюцинациям.

TruthfulQA: Бенчмарк, специально разработанный для измерения склонности моделей генерировать ответы, основанные на распространённых мифах и заблуждениях. От модели требуется давать фактически верные, а не просто популярные ответы^[9].

Безопасность и этика

Оценка токсичности: Измеряет присутствие оскорбительного или вредного контента. Для этого используются специализированные классификаторы и API, например, Perspective API^[9].
Оценка предвзятости и справедливости: Оценивает, демонстрирует ли модель дискриминационное поведение по отношению к различным демографическим группам. Исследования показывают, что LLM могут сохранять и усиливать социальные стереотипы из обучающих данных^[10].
SafetyBench: Комплексный бенчмарк для оценки безопасности, включающий проверку устойчивости к adversarial-атакам и способности избегать генерации вредного контента^[11].

Комплексные бенчмарки

MMLU (Massive Multitask Language Understanding): Один из наиболее широко используемых бенчмарков, включающий вопросы с множественным выбором по 57 предметам, от элементарной математики до международного права. Он оценивает широту и глубину знаний модели^[12].
BIG-bench (Beyond the Imitation Game): Содержит более 204 задач, разработанных для оценки способностей, которые выходят за рамки возможностей стандартных языковых моделей, включая задачи от игры в шахматы до угадывания эмодзи^[12].

Вызовы и ограничения

Проблема корреляции: Традиционные автоматические метрики, такие как BLEU и ROUGE, часто плохо коррелируют с человеческими оценками, особенно в творческих задачах^[13].
Загрязнение данных (Data Contamination): Существует риск, что тестовые данные бенчмарка могли попасть в обучающий набор модели, что приводит к завышенным и недостоверным оценкам^[14].
Многоязычная оценка: Большинство существующих метрик и бенчмарков сосредоточено на английском языке, что ограничивает их применимость для оценки многоязычных способностей LLM^[15].

Ссылки

What Are LLM Benchmarks? — обзорная статья от IBM
20 LLM evaluation benchmarks and how they work — руководство по бенчмаркам от Evidently AI

Литература

Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.

Примечания

↑ ^1,0 ^1,1 «Метрики качества LLM». Perplexity AI.
↑ «Специализированные метрики безопасности». Perplexity AI.
↑ ^3,0 ^3,1 ^3,2 «Традиционные метрики оценки текста». Perplexity AI.
↑ «Семантические метрики». Perplexity AI.
↑ «Метрики на основе распределений». Perplexity AI.
↑ ^6,0 ^6,1 «Intrinsic метрики». Perplexity AI.
↑ ^7,0 ^7,1 «Оценка с участием человека». Perplexity AI.
↑ «LLM-as-a-Judge». Perplexity AI.
↑ ^9,0 ^9,1 «Специализированные метрики безопасности». Perplexity AI.
↑ «Предвзятость и справедливость». Perplexity AI.
↑ «Benchmark'ы безопасности». Perplexity AI.
↑ ^12,0 ^12,1 «Comprehensive оценка». Perplexity AI.
↑ «Проблемы корреляции». Perplexity AI.
↑ «Загрязнение данных». Perplexity AI.
↑ «Многоязычная оценка». Perplexity AI.

[perplexity-overview-1] 1,0 ^1,1 «Метрики качества LLM». Perplexity AI.

[perplexity-security-2] «Специализированные метрики безопасности». Perplexity AI.

[ngram-metrics-3] 3,0 ^3,1 ^3,2 «Традиционные метрики оценки текста». Perplexity AI.

[semantic-metrics-4] «Семантические метрики». Perplexity AI.

[distribution-metrics-5] «Метрики на основе распределений». Perplexity AI.

[intrinsic-metrics-6] 6,0 ^6,1 «Intrinsic метрики». Perplexity AI.

[human-eval-7] 7,0 ^7,1 «Оценка с участием человека». Perplexity AI.

[llm-as-judge-8] «LLM-as-a-Judge». Perplexity AI.

[security-metrics-9] 9,0 ^9,1 «Специализированные метрики безопасности». Perplexity AI.

[bias-metrics-10] «Предвзятость и справедливость». Perplexity AI.

[safety-bench-11] «Benchmark'ы безопасности». Perplexity AI.

[comprehensive-benchmarks-12] 12,0 ^12,1 «Comprehensive оценка». Perplexity AI.

[challenges-correlation-13] «Проблемы корреляции». Perplexity AI.

[challenges-contamination-14] «Загрязнение данных». Perplexity AI.

[challenges-multilingual-15] «Многоязычная оценка». Perplexity AI.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Метрики качества LLM

Содержание

Категории метрик

Автоматические метрики

Метрики на основе n-грамм

Семантические метрики

Внутренние метрики языкового моделирования

Оценка с участием человека

Оценка с помощью LLM (LLM-as-a-Judge)

Специализированные метрики и бенчмарки

Фактологическая надёжность

Безопасность и этика

Комплексные бенчмарки

Вызовы и ограничения

Ссылки

Литература

Примечания

Навигация

Метрики качества LLM

Категории метрик

Автоматические метрики

Метрики на основе n-грамм

Семантические метрики

Внутренние метрики языкового моделирования

Оценка с участием человека

Оценка с помощью LLM (LLM-as-a-Judge)

Специализированные метрики и бенчмарки

Фактологическая надёжность

Безопасность и этика

Комплексные бенчмарки

Вызовы и ограничения

Ссылки

Литература

Примечания

Навигация

Поиск