Метрики качества LLM

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Метрики качества больших языковых моделей (LLM) — это систематический подход и набор стандартизированных инструментов для измерения различных аспектов производительности языковых моделей, включая точность, безопасность, справедливость и надёжность[1]. По мере того как LLM находят всё более широкое применение в критически важных областях, таких как здравоохранение, финансы и образование, возникает острая необходимость в их комплексной и объективной оценке[2].

Метрики и бенчмарки служат нескольким ключевым функциям: они позволяют объективно сравнивать разные модели, отслеживать прогресс в их развитии, выявлять слабые места и обеспечивать прозрачность результатов для исследователей и практиков[1].

Категории метрик

Метрики для оценки LLM можно разделить на несколько основных категорий: автоматические метрики, оценка с участием человека и специализированные метрики для оценки безопасности и надёжности.

Автоматические метрики

Эти метрики позволяют проводить быструю и масштабируемую оценку без участия человека.

Метрики на основе n-грамм

Традиционные метрики, измеряющие лексическое совпадение между сгенерированным и эталонным текстом.

  • BLEU (Bilingual Evaluation Understudy): Первоначально разработана для оценки качества машинного перевода. Измеряет точность совпадения n-грамм (последовательностей из n слов) и применяет штраф за слишком короткие сгенерированные тексты[3].
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Фокусируется на полноте, измеряя, насколько хорошо n-граммы из эталонного текста представлены в сгенерированном. Особенно эффективна для оценки задач суммаризации[3].
  • METEOR: Расширяет возможности BLEU, учитывая синонимы, однокоренные слова и морфологические варианты, что позволяет добиться лучшей корреляции с человеческими оценками[3].

Семантические метрики

Эти метрики используют контекстуальные эмбеддинги для оценки семантической близости, а не только лексического совпадения.

  • BERTScore: Вычисляет семантическое сходство между токенами сгенерированного и эталонного текстов, используя эмбеддинги из модели BERT. Это позволяет распознавать семантическую эквивалентность даже при разной формулировке[4].
  • MAUVE: Измеряет расхождение между распределениями машинного и человеческого текстов в пространстве эмбеддингов. Особенно эффективна для оценки открытой генерации, где нет фиксированного эталонного текста[5].

Внутренние метрики языкового моделирования

  • Перплексия (Perplexity): Фундаментальная метрика, измеряющая, насколько хорошо языковая модель предсказывает последовательность текста. Она отражает неуверенность модели в предсказании следующего токена. Более низкие значения перплексии указывают на лучшую производительность[6].
  • Точность и F1-мера: Широко применяются в задачах классификации и вопросно-ответных системах. F1-мера представляет собой гармоническое среднее между точностью и полнотой, обеспечивая сбалансированную оценку[6].

Оценка с участием человека

Человеческая оценка остаётся «золотым стандартом», поскольку автоматические метрики часто не способны уловить тонкие аспекты качества, такие как связность, креативность и релевантность[7].

  • Прямая оценка: Эксперты или краудсорсеры оценивают качество генерации по заданной шкале (например, от 1 до 5) по таким критериям, как беглость и связность.
  • Сравнительная оценка: Оценщикам предлагается сравнить выходы двух или более моделей и выбрать лучший (парное сравнение) или ранжировать их от лучшего к худшему.

Недостатками человеческой оценки являются высокая стоимость, сложность масштабирования и субъективность[7].

Оценка с помощью LLM (LLM-as-a-Judge)

Новый подход, при котором одна (обычно более мощная) языковая модель используется для оценки ответов другой. Например, GPT-4 может ранжировать выходы моделей по заданным критериям. Этот метод обеспечивает масштабируемую альтернативу человеческой оценке, хотя и имеет свои проблемы, такие как чувствительность к стилю запросов и потенциальная предвзятость[8].

Специализированные метрики и бенчмарки

Для оценки конкретных аспектов производительности и надёжности LLM используются специализированные метрики и бенчмарки.

Фактологическая надёжность

Оценивает способность модели генерировать правдивую информацию и не прибегать к галлюцинациям.

  • TruthfulQA: Бенчмарк, специально разработанный для измерения склонности моделей генерировать ответы, основанные на распространённых мифах и заблуждениях. От модели требуется давать фактически верные, а не просто популярные ответы[9].

Безопасность и этика

  • Оценка токсичности: Измеряет присутствие оскорбительного или вредного контента. Для этого используются специализированные классификаторы и API, например, Perspective API[9].
  • Оценка предвзятости и справедливости: Оценивает, демонстрирует ли модель дискриминационное поведение по отношению к различным демографическим группам. Исследования показывают, что LLM могут сохранять и усиливать социальные стереотипы из обучающих данных[10].
  • SafetyBench: Комплексный бенчмарк для оценки безопасности, включающий проверку устойчивости к adversarial-атакам и способности избегать генерации вредного контента[11].

Комплексные бенчмарки

  • MMLU (Massive Multitask Language Understanding): Один из наиболее широко используемых бенчмарков, включающий вопросы с множественным выбором по 57 предметам, от элементарной математики до международного права. Он оценивает широту и глубину знаний модели[12].
  • BIG-bench (Beyond the Imitation Game): Содержит более 204 задач, разработанных для оценки способностей, которые выходят за рамки возможностей стандартных языковых моделей, включая задачи от игры в шахматы до угадывания эмодзи[12].

Вызовы и ограничения

  • Проблема корреляции: Традиционные автоматические метрики, такие как BLEU и ROUGE, часто плохо коррелируют с человеческими оценками, особенно в творческих задачах[13].
  • Загрязнение данных (Data Contamination): Существует риск, что тестовые данные бенчмарка могли попасть в обучающий набор модели, что приводит к завышенным и недостоверным оценкам[14].
  • Многоязычная оценка: Большинство существующих метрик и бенчмарков сосредоточено на английском языке, что ограничивает их применимость для оценки многоязычных способностей LLM[15].

Ссылки

Литература

  • Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
  • Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
  • Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
  • Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
  • Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
  • Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
  • Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
  • Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
  • Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
  • Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
  • Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
  • Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
  • Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.

Примечания

  1. 1,0 1,1 «Метрики качества LLM». Perplexity AI.
  2. «Специализированные метрики безопасности». Perplexity AI.
  3. 3,0 3,1 3,2 «Традиционные метрики оценки текста». Perplexity AI.
  4. «Семантические метрики». Perplexity AI.
  5. «Метрики на основе распределений». Perplexity AI.
  6. 6,0 6,1 «Intrinsic метрики». Perplexity AI.
  7. 7,0 7,1 «Оценка с участием человека». Perplexity AI.
  8. «LLM-as-a-Judge». Perplexity AI.
  9. 9,0 9,1 «Специализированные метрики безопасности». Perplexity AI.
  10. «Предвзятость и справедливость». Perplexity AI.
  11. «Benchmark'ы безопасности». Perplexity AI.
  12. 12,0 12,1 «Comprehensive оценка». Perplexity AI.
  13. «Проблемы корреляции». Perplexity AI.
  14. «Загрязнение данных». Perplexity AI.
  15. «Многоязычная оценка». Perplexity AI.