Галлюцинации и некорректные ответы LLM

Галлюцинация (англ. hallucination) в контексте больших языковых моделей (LLM) — это явление, при котором модель уверенно генерирует правдоподобный (plausible) на вид ответ, который на самом деле не соответствует действительности, предоставленному контексту или является внутренне противоречивым^[1]^[2]. Модель «выдумывает» факты, детали или логические выводы, которые отсутствуют в исходных данных.

Важно отметить, что галлюцинация не является сбоем или багом в традиционном понимании. Модель работает так, как спроектирована: она предсказывает наиболее вероятное продолжение текста на основе паттернов, извлеченных из обучающих данных. У неё нет встроенного механизма проверки истинности^[3]. Галлюцинации отличаются от простых ошибок тем, что представляют собой уверенно поданную, но ложную информацию, часто включающую несуществующие факты, ссылки или события^[4]. Это явление стало настолько значимым, что в 2023 году Кембриджский словарь добавил новое значение термина «hallucination», относящееся к искусственному интеллекту^[5].

Определения и классификация галлюцинаций

Хотя используются различные термины (например, «конфабуляция», «выдумка»), галлюцинации в LLM можно разделить на две большие категории: связанные с фактической достоверностью и связанные с верностью источнику (контекстуальной согласованностью)^[6].

Фактические галлюцинации

Это случай, когда модель приводит фактически неверную информацию о реальном мире. Модель утверждает ложный «факт» как истину^[1].

Пример: «Чарльз Линдберг был первым человеком, ступившим на поверхность Луны» — полностью вымышленный факт.
Ложные цитаты и ссылки: Модель может придумать ссылку на несуществующую научную работу или закон, имитируя формат реальной ссылки^[2]. Это подрывает доверие к моделям, особенно в приложениях, где требуется точность (образование, новости, консалтинг)^[7].

Логические ошибки

Модель допускает несостыковку или ошибку в рассуждениях. Отдельные факты в ответе могут быть верны, но вывод нелогичен или противоречит элементарной логике^[2]. Это часто происходит в сложных рассуждениях или задачах на математику и причинность, где модель оперирует вероятностными связями слов, а не формальной логикой^[2]^[2].

Пример: «Поскольку птицы летают, астронавты не испытывают гравитации» — текст выглядит связно, но логически неправилен.

Контекстные галлюцинации

Ответ модели не соответствует предоставленному контексту или инструкции. Модель «выпадает» из контекста, добавляя лишние сведения или игнорируя нужные^[1].

Нарушение инструкции: На просьбу «перевести текст на испанский» модель отвечает на английском^[1].
Информация не из источника: В задаче суммаризации модель «добавляет» факты, отсутствующие в оригинальном документе, или перевирает их^[1].
Смешение контекстов: В середине ответа модель внезапно начинает говорить о чем-то из другой области. Например, в ответ на вопрос о комиссаре НБА Адаме Сильвере, модель может переключиться на его предшественника Дэвида Стерна, смешав два разных контекста^[6].

Неконсистентность

Разновидность галлюцинации, при которой модель противоречит сама себе в пределах одного ответа или серии ответов^[6]. В одном исследовании было обнаружено, что у ChatGPT уровень само-противоречивости ответов составляет около 14%^[6]^[6].

Пример: «Компания Х была основана в 1990 году... а через несколько предложений ...Компания Х, образованная в 2000 году...»

Галлюцинации в коде

LLM, обученные на коде, могут генерировать синтаксически корректные, но нерабочие фрагменты, используя несуществующие функции, библиотеки или параметры^[2]. Например, модель может сгенерировать `import quantum` в Python, хотя такого стандартного модуля не существует. В 2024 году был предложен термин «code hallucination» и создан бенчмарк CodeMirage для систематизации этой проблемы^[8].

Причины возникновения

Явление галлюцинаций обусловлено совокупностью факторов, от архитектуры модели до качества данных.

Архитектура и принцип обучения: Большинство LLM (например, GPT) являются авторегрессивными трансформерами, обученными предсказывать следующий токен. Их цель — максимизация правдоподобия текста, а не проверка истинности утверждений^[2]. Модель не различает факты и вымысел в обучающих данных, воспринимая всё как текстовые паттерны^[2].
Качество обучающих данных: LLM обучаются на огромных корпусах текста из Интернета, которые содержат множество неточностей, мифов и устаревшей информации^[1]. Модель запоминает и воспроизводит эти ошибки. Также важен knowledge cutoff — предел по времени, до которого у модели есть информация.
Способ генерации текста: Стохастический характер генерации (сэмплирование с температурой) позволяет модели создавать более «креативные», но менее точные ответы. Ограниченная длина контекста может приводить к тому, что модель «забывает» ранние детали диалога и начинает противоречить сама себе^[6].

Методы оценки и измерения

Для выявления и измерения галлюцинаций применяются автоматические метрики, человеческая оценка и специализированные бенчмарки.

Автоматические метрики: Включают подходы, где другая LLM выступает в роли «судьи» (LLM-as-a-judge) для оценки корректности ответа^[9], или анализ энтропии (неуверенности) модели при генерации^[10].
Человеческая аннотация: Считается «золотым стандартом». Эксперты или крауд-асессоры вручную оценивают ответы, помечая ошибки. Этот метод используется при обучении моделей с помощью RLHF^[11].
Бенчмарки и стресс-тесты: Созданы специальные наборы данных, такие как TruthfulQA, который содержит вопросы, провоцирующие модель на воспроизведение распространенных мифов^[12]. Существуют также лидерборды, например Hugging Face Hallucination Leaderboard, где модели сравниваются по уровню галлюцинаций^[13].

Способы смягчения и предотвращения

Retrieval-Augmented Generation (RAG): Наиболее успешный подход, который «привязывает» модель к внешним знаниям. Перед генерацией ответа модель получает релевантную информацию из базы данных, поисковой системы или API. Это позволяет модели основывать ответ на проверенных данных, а не на догадках^[2].
Цепочки рассуждений (Chain-of-Thought) и самопроверка: Модель сначала генерирует пошаговое рассуждение, прежде чем дать финальный ответ, что повышает точность. В более продвинутых методах, таких как Self-Verification, модель генерирует черновой ответ, а затем получает задание проверить его и исправить^[14].
Встроенные правила и фильтры: Модели обучаются отказываться от ответа, если не уверены. Например, модели Claude от Anthropic следуют принципу «правдивости» и часто отвечают «Мне неизвестно точно...», вместо того чтобы выдумывать факты^[11].
Интеграция с внешними инструментами: Модели, такие как Gemini, могут автоматически распознавать, когда им нужен внешний инструмент (например, калькулятор для вычислений или поиск для свежих новостей), и использовать его, что значительно снижает количество галлюцинаций^[11].

Риски и последствия

Правовые и репутационные риски: В юридической сфере галлюцинации могут иметь серьезные последствия. Широкую известность получил случай Mata v. Avianca (2023), где адвокат использовал ChatGPT для поиска судебных прецедентов, и тот выдумал несколько несуществующих дел. Адвокаты были оштрафованы, а инцидент стал уроком о недопустимости доверия ИИ без проверки^[1].
Распространение дезинформации: В масштабах общества LLM могут усиливать проблему фейковых новостей. Известен случай с моделью Galactica от Meta, которая была создана для помощи ученым, но начала генерировать псевдонаучные тексты с выдуманными экспериментами и ссылками. Через три дня публичный доступ к модели был закрыт^[15].
Принятие ошибочных решений: Пользователи, особенно неискушенные, склонны доверять уверенно сформулированным ответам ИИ, что может привести к принятию неверных решений в финансах, медицине и других критических областях^[7].

Примеры из практики

Случай с Air Canada (2023): Чат-бот авиакомпании выдумал несуществующую политику возврата билетов. Когда клиент потребовал применить её, компания отказалась. Транспортный трибунал Канады обязал Air Canada нести ответственность за информацию, предоставленную её чат-ботом, и компенсировать убытки клиенту^[9].
Иск о диффамации против OpenAI (2023): Радиоведущий Марк Уолтерс подал в суд на OpenAI за то, что ChatGPT в ответе на запрос журналиста ложно обвинил его в мошенничестве. Этот случай подчеркнул юридическую ответственность компаний за контент, генерируемый их моделями^[6].

Ссылки

The Beginner's Guide to Hallucinations in Large Language Models — подробное руководство от Lakera
Survey of Hallucination in Natural Language Generation — научный обзор явления на arXiv

Литература

Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.

Примечания

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 ^2,6 ^2,7 ^2,8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]
↑ «Hallucination (artificial intelligence)». In Wikipedia. [3]
↑ «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [источник не указан в тексте].
↑ «Cambridge Dictionary adds new definition for 'hallucinate'». [источник не указан в тексте].
↑ ^6,0 ^6,1 ^6,2 ^6,3 ^6,4 ^6,5 ^6,6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]
↑ ^7,0 ^7,1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]
↑ [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
↑ ^9,0 ^9,1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]
↑ «How to Perform Hallucination Detection for LLMs». Kolena. [8]
↑ ^11,0 ^11,1 ^11,2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]
↑ «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]
↑ «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]
↑ «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]
↑ «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]

[lakera-guide-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]

[astera-guide-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 ^2,6 ^2,7 ^2,8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]

[wikipedia-hallucination-3] «Hallucination (artificial intelligence)». In Wikipedia. [3]

[openai-description-4] «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [источник не указан в тексте].

[cambridge-dict-5] «Cambridge Dictionary adds new definition for 'hallucinate'». [источник не указан в тексте].

[nexla-guide-6] 6,0 ^6,1 ^6,2 ^6,3 ^6,4 ^6,5 ^6,6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]

[quickcreator-tips-7] 7,0 ^7,1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]

[codemirage-paper-8] [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]

[evidently-blog-9] 9,0 ^9,1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]

[kolena-blog-10] «How to Perform Hallucination Detection for LLMs». Kolena. [8]

[chatgpt-comparison-11] 11,0 ^11,1 ^11,2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]

[mastering-llm-accuracy-12] «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]

[llm-benchmarks-arize-13] «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]

[rag-cove-paper-14] «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]

[galactica-failure-15] «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Галлюцинации и некорректные ответы LLM

Содержание

Определения и классификация галлюцинаций

Фактические галлюцинации

Логические ошибки

Контекстные галлюцинации

Неконсистентность

Галлюцинации в коде

Причины возникновения

Методы оценки и измерения

Способы смягчения и предотвращения

Риски и последствия

Примеры из практики

Ссылки

Литература

Примечания

Навигация

Галлюцинации и некорректные ответы LLM

Определения и классификация галлюцинаций

Фактические галлюцинации

Логические ошибки

Контекстные галлюцинации

Неконсистентность

Галлюцинации в коде

Причины возникновения

Методы оценки и измерения

Способы смягчения и предотвращения

Риски и последствия

Примеры из практики

Ссылки

Литература

Примечания

Навигация

Поиск