Галлюцинации и некорректные ответы LLM
Галлюцинация (англ. hallucination) в контексте больших языковых моделей (LLM) — это явление, при котором модель уверенно генерирует правдоподобный (plausible) на вид ответ, который на самом деле не соответствует действительности, предоставленному контексту или является внутренне противоречивым[1][2]. Модель «выдумывает» факты, детали или логические выводы, которые отсутствуют в исходных данных.
Важно отметить, что галлюцинация не является сбоем или багом в традиционном понимании. Модель работает так, как спроектирована: она предсказывает наиболее вероятное продолжение текста на основе паттернов, извлеченных из обучающих данных. У неё нет встроенного механизма проверки истинности[3]. Галлюцинации отличаются от простых ошибок тем, что представляют собой уверенно поданную, но ложную информацию, часто включающую несуществующие факты, ссылки или события[4]. Это явление стало настолько значимым, что в 2023 году Кембриджский словарь добавил новое значение термина «hallucination», относящееся к искусственному интеллекту[5].
Определения и классификация галлюцинаций
Хотя используются различные термины (например, «конфабуляция», «выдумка»), галлюцинации в LLM можно разделить на две большие категории: связанные с фактической достоверностью и связанные с верностью источнику (контекстуальной согласованностью)[6].
Фактические галлюцинации
Это случай, когда модель приводит фактически неверную информацию о реальном мире. Модель утверждает ложный «факт» как истину[1].
- Пример: «Чарльз Линдберг был первым человеком, ступившим на поверхность Луны» — полностью вымышленный факт.
- Ложные цитаты и ссылки: Модель может придумать ссылку на несуществующую научную работу или закон, имитируя формат реальной ссылки[2]. Это подрывает доверие к моделям, особенно в приложениях, где требуется точность (образование, новости, консалтинг)[7].
Логические ошибки
Модель допускает несостыковку или ошибку в рассуждениях. Отдельные факты в ответе могут быть верны, но вывод нелогичен или противоречит элементарной логике[2]. Это часто происходит в сложных рассуждениях или задачах на математику и причинность, где модель оперирует вероятностными связями слов, а не формальной логикой[2][2].
- Пример: «Поскольку птицы летают, астронавты не испытывают гравитации» — текст выглядит связно, но логически неправилен.
Контекстные галлюцинации
Ответ модели не соответствует предоставленному контексту или инструкции. Модель «выпадает» из контекста, добавляя лишние сведения или игнорируя нужные[1].
- Нарушение инструкции: На просьбу «перевести текст на испанский» модель отвечает на английском[1].
- Информация не из источника: В задаче суммаризации модель «добавляет» факты, отсутствующие в оригинальном документе, или перевирает их[1].
- Смешение контекстов: В середине ответа модель внезапно начинает говорить о чем-то из другой области. Например, в ответ на вопрос о комиссаре НБА Адаме Сильвере, модель может переключиться на его предшественника Дэвида Стерна, смешав два разных контекста[6].
Неконсистентность
Разновидность галлюцинации, при которой модель противоречит сама себе в пределах одного ответа или серии ответов[6]. В одном исследовании было обнаружено, что у ChatGPT уровень само-противоречивости ответов составляет около 14%[6][6].
- Пример: «Компания Х была основана в 1990 году... а через несколько предложений ...Компания Х, образованная в 2000 году...»
Галлюцинации в коде
LLM, обученные на коде, могут генерировать синтаксически корректные, но нерабочие фрагменты, используя несуществующие функции, библиотеки или параметры[2]. Например, модель может сгенерировать `import quantum` в Python, хотя такого стандартного модуля не существует. В 2024 году был предложен термин «code hallucination» и создан бенчмарк CodeMirage для систематизации этой проблемы[8].
Причины возникновения
Явление галлюцинаций обусловлено совокупностью факторов, от архитектуры модели до качества данных.
- Архитектура и принцип обучения: Большинство LLM (например, GPT) являются авторегрессивными трансформерами, обученными предсказывать следующий токен. Их цель — максимизация правдоподобия текста, а не проверка истинности утверждений[2]. Модель не различает факты и вымысел в обучающих данных, воспринимая всё как текстовые паттерны[2].
- Качество обучающих данных: LLM обучаются на огромных корпусах текста из Интернета, которые содержат множество неточностей, мифов и устаревшей информации[1]. Модель запоминает и воспроизводит эти ошибки. Также важен knowledge cutoff — предел по времени, до которого у модели есть информация.
- Способ генерации текста: Стохастический характер генерации (сэмплирование с температурой) позволяет модели создавать более «креативные», но менее точные ответы. Ограниченная длина контекста может приводить к тому, что модель «забывает» ранние детали диалога и начинает противоречить сама себе[6].
Методы оценки и измерения
Для выявления и измерения галлюцинаций применяются автоматические метрики, человеческая оценка и специализированные бенчмарки.
- Автоматические метрики: Включают подходы, где другая LLM выступает в роли «судьи» (LLM-as-a-judge) для оценки корректности ответа[9], или анализ энтропии (неуверенности) модели при генерации[10].
- Человеческая аннотация: Считается «золотым стандартом». Эксперты или крауд-асессоры вручную оценивают ответы, помечая ошибки. Этот метод используется при обучении моделей с помощью RLHF[11].
- Бенчмарки и стресс-тесты: Созданы специальные наборы данных, такие как TruthfulQA, который содержит вопросы, провоцирующие модель на воспроизведение распространенных мифов[12]. Существуют также лидерборды, например Hugging Face Hallucination Leaderboard, где модели сравниваются по уровню галлюцинаций[13].
Способы смягчения и предотвращения
- Retrieval-Augmented Generation (RAG): Наиболее успешный подход, который «привязывает» модель к внешним знаниям. Перед генерацией ответа модель получает релевантную информацию из базы данных, поисковой системы или API. Это позволяет модели основывать ответ на проверенных данных, а не на догадках[2].
- Цепочки рассуждений (Chain-of-Thought) и самопроверка: Модель сначала генерирует пошаговое рассуждение, прежде чем дать финальный ответ, что повышает точность. В более продвинутых методах, таких как Self-Verification, модель генерирует черновой ответ, а затем получает задание проверить его и исправить[14].
- Встроенные правила и фильтры: Модели обучаются отказываться от ответа, если не уверены. Например, модели Claude от Anthropic следуют принципу «правдивости» и часто отвечают «Мне неизвестно точно...», вместо того чтобы выдумывать факты[11].
- Интеграция с внешними инструментами: Модели, такие как Gemini, могут автоматически распознавать, когда им нужен внешний инструмент (например, калькулятор для вычислений или поиск для свежих новостей), и использовать его, что значительно снижает количество галлюцинаций[11].
Риски и последствия
- Правовые и репутационные риски: В юридической сфере галлюцинации могут иметь серьезные последствия. Широкую известность получил случай Mata v. Avianca (2023), где адвокат использовал ChatGPT для поиска судебных прецедентов, и тот выдумал несколько несуществующих дел. Адвокаты были оштрафованы, а инцидент стал уроком о недопустимости доверия ИИ без проверки[1].
- Распространение дезинформации: В масштабах общества LLM могут усиливать проблему фейковых новостей. Известен случай с моделью Galactica от Meta, которая была создана для помощи ученым, но начала генерировать псевдонаучные тексты с выдуманными экспериментами и ссылками. Через три дня публичный доступ к модели был закрыт[15].
- Принятие ошибочных решений: Пользователи, особенно неискушенные, склонны доверять уверенно сформулированным ответам ИИ, что может привести к принятию неверных решений в финансах, медицине и других критических областях[7].
Примеры из практики
- Случай с Air Canada (2023): Чат-бот авиакомпании выдумал несуществующую политику возврата билетов. Когда клиент потребовал применить её, компания отказалась. Транспортный трибунал Канады обязал Air Canada нести ответственность за информацию, предоставленную её чат-ботом, и компенсировать убытки клиенту[9].
- Иск о диффамации против OpenAI (2023): Радиоведущий Марк Уолтерс подал в суд на OpenAI за то, что ChatGPT в ответе на запрос журналиста ложно обвинил его в мошенничестве. Этот случай подчеркнул юридическую ответственность компаний за контент, генерируемый их моделями[6].
Ссылки
- The Beginner's Guide to Hallucinations in Large Language Models — подробное руководство от Lakera
- Survey of Hallucination in Natural Language Generation — научный обзор явления на arXiv
Литература
- Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
- Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
- Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
- Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
- Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
- O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
- Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
- Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
- Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
- Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.
Примечания
- ↑ 1,0 1,1 1,2 1,3 1,4 1,5 1,6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]
- ↑ 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]
- ↑ «Hallucination (artificial intelligence)». In Wikipedia. [3]
- ↑ «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [источник не указан в тексте].
- ↑ «Cambridge Dictionary adds new definition for 'hallucinate'». [источник не указан в тексте].
- ↑ 6,0 6,1 6,2 6,3 6,4 6,5 6,6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]
- ↑ 7,0 7,1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]
- ↑ [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
- ↑ 9,0 9,1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]
- ↑ «How to Perform Hallucination Detection for LLMs». Kolena. [8]
- ↑ 11,0 11,1 11,2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]
- ↑ «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]
- ↑ «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]
- ↑ «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]
- ↑ «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]