Галлюцинации и некорректные ответы LLM

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Галлюцинация (англ. hallucination) в контексте больших языковых моделей (LLM) — это явление, при котором модель уверенно генерирует правдоподобный (plausible) на вид ответ, который на самом деле не соответствует действительности, предоставленному контексту или является внутренне противоречивым[1][2]. Модель «выдумывает» факты, детали или логические выводы, которые отсутствуют в исходных данных.

Важно отметить, что галлюцинация не является сбоем или багом в традиционном понимании. Модель работает так, как спроектирована: она предсказывает наиболее вероятное продолжение текста на основе паттернов, извлеченных из обучающих данных. У неё нет встроенного механизма проверки истинности[3]. Галлюцинации отличаются от простых ошибок тем, что представляют собой уверенно поданную, но ложную информацию, часто включающую несуществующие факты, ссылки или события[4]. Это явление стало настолько значимым, что в 2023 году Кембриджский словарь добавил новое значение термина «hallucination», относящееся к искусственному интеллекту[5].

Определения и классификация галлюцинаций

Хотя используются различные термины (например, «конфабуляция», «выдумка»), галлюцинации в LLM можно разделить на две большие категории: связанные с фактической достоверностью и связанные с верностью источнику (контекстуальной согласованностью)[6].

Фактические галлюцинации

Это случай, когда модель приводит фактически неверную информацию о реальном мире. Модель утверждает ложный «факт» как истину[1].

  • Пример: «Чарльз Линдберг был первым человеком, ступившим на поверхность Луны» — полностью вымышленный факт.
  • Ложные цитаты и ссылки: Модель может придумать ссылку на несуществующую научную работу или закон, имитируя формат реальной ссылки[2]. Это подрывает доверие к моделям, особенно в приложениях, где требуется точность (образование, новости, консалтинг)[7].

Логические ошибки

Модель допускает несостыковку или ошибку в рассуждениях. Отдельные факты в ответе могут быть верны, но вывод нелогичен или противоречит элементарной логике[2]. Это часто происходит в сложных рассуждениях или задачах на математику и причинность, где модель оперирует вероятностными связями слов, а не формальной логикой[2][2].

  • Пример: «Поскольку птицы летают, астронавты не испытывают гравитации» — текст выглядит связно, но логически неправилен.

Контекстные галлюцинации

Ответ модели не соответствует предоставленному контексту или инструкции. Модель «выпадает» из контекста, добавляя лишние сведения или игнорируя нужные[1].

  • Нарушение инструкции: На просьбу «перевести текст на испанский» модель отвечает на английском[1].
  • Информация не из источника: В задаче суммаризации модель «добавляет» факты, отсутствующие в оригинальном документе, или перевирает их[1].
  • Смешение контекстов: В середине ответа модель внезапно начинает говорить о чем-то из другой области. Например, в ответ на вопрос о комиссаре НБА Адаме Сильвере, модель может переключиться на его предшественника Дэвида Стерна, смешав два разных контекста[6].

Неконсистентность

Разновидность галлюцинации, при которой модель противоречит сама себе в пределах одного ответа или серии ответов[6]. В одном исследовании было обнаружено, что у ChatGPT уровень само-противоречивости ответов составляет около 14%[6][6].

  • Пример: «Компания Х была основана в 1990 году... а через несколько предложений ...Компания Х, образованная в 2000 году...»

Галлюцинации в коде

LLM, обученные на коде, могут генерировать синтаксически корректные, но нерабочие фрагменты, используя несуществующие функции, библиотеки или параметры[2]. Например, модель может сгенерировать `import quantum` в Python, хотя такого стандартного модуля не существует. В 2024 году был предложен термин «code hallucination» и создан бенчмарк CodeMirage для систематизации этой проблемы[8].

Причины возникновения

Явление галлюцинаций обусловлено совокупностью факторов, от архитектуры модели до качества данных.

  • Архитектура и принцип обучения: Большинство LLM (например, GPT) являются авторегрессивными трансформерами, обученными предсказывать следующий токен. Их цель — максимизация правдоподобия текста, а не проверка истинности утверждений[2]. Модель не различает факты и вымысел в обучающих данных, воспринимая всё как текстовые паттерны[2].
  • Качество обучающих данных: LLM обучаются на огромных корпусах текста из Интернета, которые содержат множество неточностей, мифов и устаревшей информации[1]. Модель запоминает и воспроизводит эти ошибки. Также важен knowledge cutoff — предел по времени, до которого у модели есть информация.
  • Способ генерации текста: Стохастический характер генерации (сэмплирование с температурой) позволяет модели создавать более «креативные», но менее точные ответы. Ограниченная длина контекста может приводить к тому, что модель «забывает» ранние детали диалога и начинает противоречить сама себе[6].

Методы оценки и измерения

Для выявления и измерения галлюцинаций применяются автоматические метрики, человеческая оценка и специализированные бенчмарки.

  • Автоматические метрики: Включают подходы, где другая LLM выступает в роли «судьи» (LLM-as-a-judge) для оценки корректности ответа[9], или анализ энтропии (неуверенности) модели при генерации[10].
  • Человеческая аннотация: Считается «золотым стандартом». Эксперты или крауд-асессоры вручную оценивают ответы, помечая ошибки. Этот метод используется при обучении моделей с помощью RLHF[11].
  • Бенчмарки и стресс-тесты: Созданы специальные наборы данных, такие как TruthfulQA, который содержит вопросы, провоцирующие модель на воспроизведение распространенных мифов[12]. Существуют также лидерборды, например Hugging Face Hallucination Leaderboard, где модели сравниваются по уровню галлюцинаций[13].

Способы смягчения и предотвращения

  • Retrieval-Augmented Generation (RAG): Наиболее успешный подход, который «привязывает» модель к внешним знаниям. Перед генерацией ответа модель получает релевантную информацию из базы данных, поисковой системы или API. Это позволяет модели основывать ответ на проверенных данных, а не на догадках[2].
  • Цепочки рассуждений (Chain-of-Thought) и самопроверка: Модель сначала генерирует пошаговое рассуждение, прежде чем дать финальный ответ, что повышает точность. В более продвинутых методах, таких как Self-Verification, модель генерирует черновой ответ, а затем получает задание проверить его и исправить[14].
  • Встроенные правила и фильтры: Модели обучаются отказываться от ответа, если не уверены. Например, модели Claude от Anthropic следуют принципу «правдивости» и часто отвечают «Мне неизвестно точно...», вместо того чтобы выдумывать факты[11].
  • Интеграция с внешними инструментами: Модели, такие как Gemini, могут автоматически распознавать, когда им нужен внешний инструмент (например, калькулятор для вычислений или поиск для свежих новостей), и использовать его, что значительно снижает количество галлюцинаций[11].

Риски и последствия

  • Правовые и репутационные риски: В юридической сфере галлюцинации могут иметь серьезные последствия. Широкую известность получил случай Mata v. Avianca (2023), где адвокат использовал ChatGPT для поиска судебных прецедентов, и тот выдумал несколько несуществующих дел. Адвокаты были оштрафованы, а инцидент стал уроком о недопустимости доверия ИИ без проверки[1].
  • Распространение дезинформации: В масштабах общества LLM могут усиливать проблему фейковых новостей. Известен случай с моделью Galactica от Meta, которая была создана для помощи ученым, но начала генерировать псевдонаучные тексты с выдуманными экспериментами и ссылками. Через три дня публичный доступ к модели был закрыт[15].
  • Принятие ошибочных решений: Пользователи, особенно неискушенные, склонны доверять уверенно сформулированным ответам ИИ, что может привести к принятию неверных решений в финансах, медицине и других критических областях[7].

Примеры из практики

  • Случай с Air Canada (2023): Чат-бот авиакомпании выдумал несуществующую политику возврата билетов. Когда клиент потребовал применить её, компания отказалась. Транспортный трибунал Канады обязал Air Canada нести ответственность за информацию, предоставленную её чат-ботом, и компенсировать убытки клиенту[9].
  • Иск о диффамации против OpenAI (2023): Радиоведущий Марк Уолтерс подал в суд на OpenAI за то, что ChatGPT в ответе на запрос журналиста ложно обвинил его в мошенничестве. Этот случай подчеркнул юридическую ответственность компаний за контент, генерируемый их моделями[6].

Ссылки

Литература

  • Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
  • Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
  • Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
  • Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
  • Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
  • O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
  • Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
  • Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
  • Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
  • Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]
  2. 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]
  3. «Hallucination (artificial intelligence)». In Wikipedia. [3]
  4. «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [источник не указан в тексте].
  5. «Cambridge Dictionary adds new definition for 'hallucinate'». [источник не указан в тексте].
  6. 6,0 6,1 6,2 6,3 6,4 6,5 6,6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]
  7. 7,0 7,1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]
  8. [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
  9. 9,0 9,1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]
  10. «How to Perform Hallucination Detection for LLMs». Kolena. [8]
  11. 11,0 11,1 11,2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]
  12. «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]
  13. «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]
  14. «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]
  15. «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]