Снижение ошибок LLM

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Снижение ошибок в больших языковых моделях (LLM) — это комплекс методов и технологий, направленных на повышение точности, надежности и безопасности систем искусственного интеллекта, основанных на трансформерной архитектуре. Проблема ошибок, в частности галлюцинаций, является одним из ключевых барьеров для широкого внедрения LLM в критически важные области. По данным исследований 2024–2025 годов, частота галлюцинаций в публично доступных LLM составляет от 3% до 16%[1].

Типология ошибок

Современная классификация ошибок LLM включает несколько основных категорий, каждая из которых требует специфических подходов к митигации (смягчению последствий).

Галлюцинации

Галлюцинации представляют собой генерацию правдоподобного, но фактически неверного контента. Согласно исследованию Хуанга и др. (2023), выделяют два основных типа[2]:

  • Фактические галлюцинации — расхождение с проверяемыми фактами, включая создание несуществующих фактов (фабрикация). В исследовании 2024 года Стэнфордский университет обнаружил, что LLM изобрели более 120 несуществующих судебных дел[3].
  • Логические галлюцинации — нарушение логической последовательности в рассуждениях.

Статистика 2024 года показывает, что чат-боты галлюцинируют в 27% случаев, при этом 46% сгенерированных текстов содержат фактические ошибки[3].

Систематические смещения (Bias)

Смещения в LLM проявляются в виде социальных предубеждений (например, ассоциации профессий с определенным полом) и демографических различий в производительности. Исследования 2024 года показали, что среди 10 протестированных моделей разность в оценках для разных демографических групп может достигать 4 баллов из 10.

Токсичность

Токсичность определяется как генерация оскорбительного, вредного или дискриминационного контента. Метрика токсичности варьируется в широком диапазоне в зависимости от модели и контекста использования.

Методы снижения ошибок

Стратегии по борьбе с ошибками можно разделить на две большие группы: методы, модифицирующие модель и процесс обучения, и методы, применяемые на этапе вывода (инференса).

Модификация модели и процесса обучения

Fine-tuning и Instruction Tuning

Supervised Fine-Tuning (SFT) позволяет адаптировать предобученные модели к специфическим задачам. Для снижения вычислительных затрат применяются методы Parameter-Efficient Fine-Tuning (PEFT), такие как LoRA и QLoRA, которые могут сократить затраты на дообучение до 99% при сохранении эффективности.

Обучение с подкреплением на основе обратной связи от человека (RLHF)

RLHF — это двухэтапный процесс, в ходе которого сначала обучается модель вознаграждения на основе человеческих предпочтений, а затем основная LLM оптимизируется для генерации ответов, которые максимизируют это вознаграждение. Метод показал свою эффективность в моделях InstructGPT и GPT-4, значительно повысив их соответствие ожиданиям пользователей[4].

Constitutional AI

Разработанный компанией Anthropic, метод Constitutional AI является альтернативой RLHF. Вместо прямой обратной связи от человека модель обучается следовать набору принципов («конституции»). Это снижает потребность в человеческом надзоре на 80-90% и эффективно предотвращает генерацию вредоносного контента[5].

Архитектурные решения

  • Mixture of Experts (MoE): Архитектура с разреженной активацией, позволяющая значительно увеличить емкость модели без пропорционального роста вычислительных затрат. Предполагается, что GPT-4 использует 8 экспертов по 220 млрд параметров каждый.
  • Модификации механизма внимания: Техники, такие как Grouped Query Attention (GQA) (в моделях Llama 3) и Sparse Attention, снижают вычислительную сложность и требования к памяти, позволяя обрабатывать более длинные контексты.

Методы на этапе вывода (инференса)

Retrieval-Augmented Generation (RAG)

RAG — один из самых эффективных методов снижения фактических ошибок. Перед генерацией ответа система обращается к внешней базе знаний (например, Википедия, корпоративная документация, научные статьи), извлекает релевантную информацию и передает ее модели вместе с исходным запросом. Это «заземляет» ответ на проверенных фактах. Системы RAG достигают 56,8% exact match на бенчмарке TriviaQA и превосходят традиционные модели на 60–80% в снижении фактических ошибок.

Продвинутые техники промптинга

  • Chain-of-Thought (CoT): Промптинг, который побуждает модель генерировать пошаговую цепочку рассуждений перед тем, как дать окончательный ответ. Это значительно улучшает результаты в задачах, требующих логических и математических вычислений.
  • Chain of Draft (CoD): Эволюция CoT, при которой модель итеративно редактирует черновики своего ответа, что позволяет достичь сопоставимой с CoT точности при использовании значительно меньшего количества токенов.

Внутренняя самокоррекция (Intrinsic Self-Correction)

Исследования TACL 2024 года показали, что способность LLM к самокоррекции без внешней информации ограничена. Эффективная самокоррекция, как правило, требует использования внешних инструментов, таких как интерпретаторы кода для проверки вычислений или поисковые системы для валидации фактов[6].

Методы оценки ошибок

Для измерения прогресса в снижении ошибок используются специализированные метрики и бенчмарки.

  • Традиционные метрики: Perplexity, BLEU и ROUGE. Они полезны для оценки беглости и совпадения n-грамм, но плохо справляются с оценкой фактической точности.
  • Современные подходы:
    • FactScore разлагает длинные тексты на атомарные факты и оценивает процент фактов, подтверждаемых базой знаний.
    • SAFE (Search-Augmented Factuality Evaluator) — метод от Google, который использует поиск для проверки фактов и достигает 72% согласованности с оценками человека, работая в 20 раз дешевле.
    • TruthfulQA — бенчмарк, фокусирующийся на способности моделей избегать генерации популярных заблуждений.

Литература

  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv:2311.05232.
  • Min, S. et al. (2023). FActScore: Fine-Grained Atomic Evaluation of Factual Precision in Long-Form Text Generation. arXiv:2305.14251.
  • Wei, J. et al. (2024). Long-Form Factuality in Large Language Models (SAFE). arXiv:2403.18802.
  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
  • Hu, E. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
  • Wang, X. et al. (2022). Self-Consistency Improves Chain-of-Thought Reasoning in Language Models. arXiv:2203.11171.
  • Anthropic (2024). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Maslej, N. et al. (2024). Artificial Intelligence Index Report 2024. arXiv:2405.19522.

Примечания

  1. «Hallucination Leaderboard». Vectara. (2024-2025). Проверено 4 июля 2025.
  2. Huang, L., et al. (2023). «A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions». arXiv:2311.05232.
  3. 3,0 3,1 Stanford Human-Centered AI (2024). «AI Index Report 2024».
  4. OpenAI (2024). «Learning to Reason with LLMs». Technical Blog.
  5. Anthropic (2024). «Constitutional AI: Harmlessness from AI Feedback». Research Paper.
  6. «When Can LLMs Actually Correct Their Own Mistakes?». Transactions of the Association for Computational Linguistics. (2024).