Alucinações e respostas incorretas de LLMs

Alucinação (do inglês hallucination) no contexto de grandes modelos de linguagem (LLM) é o fenômeno no qual o modelo gera com confiança uma resposta que parece plausível (plausible), mas que na verdade não corresponde à realidade, ao contexto fornecido ou é internamente contraditória^[1]^[2]. O modelo "inventa" fatos, detalhes ou conclusões lógicas que não estão presentes nos dados de origem.

É importante notar que a alucinação não é uma falha ou um bug no sentido tradicional. O modelo funciona como foi projetado: ele prevê a continuação mais provável do texto com base em padrões extraídos dos dados de treinamento. Ele não possui um mecanismo integrado de verificação da veracidade^[3]. As alucinações se distinguem dos erros simples por representarem informações apresentadas com confiança, mas falsas, muitas vezes incluindo fatos, referências ou eventos inexistentes^[4]. Esse fenômeno se tornou tão significativo que, em 2023, o Dicionário Cambridge adicionou um novo significado ao termo "hallucination", referente à inteligência artificial^[5].

Definições e classificação de alucinações

Embora vários termos sejam utilizados (por exemplo, "confabulação", "invenção"), as alucinações em LLMs podem ser divididas em duas grandes categorias: relacionadas à veracidade factual e relacionadas à fidelidade à fonte (consistência contextual)^[6].

Alucinações factuais

Este é o caso em que o modelo apresenta informações factualmente incorretas sobre o mundo real. O modelo afirma um "fato" falso como verdadeiro^[1].

Exemplo: "Charles Lindbergh foi a primeira pessoa a pisar na superfície da Lua" — um fato completamente fictício.
Citações e referências falsas: O modelo pode inventar uma referência a um trabalho científico ou a uma lei inexistente, imitando o formato de uma referência real^[2]. Isso mina a confiança nos modelos, especialmente em aplicações que exigem precisão (educação, notícias, consultoria)^[7].

Erros lógicos

O modelo comete uma inconsistência ou um erro no raciocínio. Fatos individuais na resposta podem estar corretos, mas a conclusão é ilógica ou contradiz a lógica elementar^[2]. Isso ocorre frequentemente em raciocínios complexos ou em tarefas de matemática e causalidade, onde o modelo opera com base em conexões probabilísticas entre palavras, e não em lógica formal^[2]^[2].

Exemplo: "Como os pássaros voam, os astronautas não sentem a gravidade" — o texto parece coeso, mas é logicamente incorreto.

Alucinações contextuais

A resposta do modelo não corresponde ao contexto ou à instrução fornecida. O modelo "sai" do contexto, adicionando informações desnecessárias ou ignorando as necessárias^[1].

Violação da instrução: Ao pedido para "traduzir o texto para o espanhol", o modelo responde em inglês^[1].
Informação não proveniente da fonte: Em uma tarefa de sumarização, o modelo "adiciona" fatos que não estão no documento original ou os distorce^[1].
Mistura de contextos: No meio da resposta, o modelo pode de repente começar a falar sobre algo de outra área. Por exemplo, em resposta a uma pergunta sobre o comissário da NBA Adam Silver, o modelo pode mudar para seu antecessor David Stern, misturando dois contextos diferentes^[6].

Inconsistência

Uma variedade de alucinação na qual o modelo se contradiz dentro de uma única resposta ou de uma série de respostas^[6]. Um estudo descobriu que o nível de autocontradição nas respostas do ChatGPT é de aproximadamente 14%^[6]^[6].

Exemplo: "A empresa X foi fundada em 1990... e algumas frases depois... A empresa X, fundada em 2000..."

Alucinações em código

LLMs treinados com código podem gerar trechos sintaticamente corretos, mas não funcionais, utilizando funções, bibliotecas ou parâmetros inexistentes^[2]. Por exemplo, o modelo pode gerar `import quantum` em Python, embora esse módulo padrão não exista. Em 2024, o termo "code hallucination" foi proposto e o benchmark CodeMirage foi criado para sistematizar esse problema^[8].

Causas de ocorrência

O fenômeno das alucinações é causado por uma combinação de fatores, desde a arquitetura do modelo até a qualidade dos dados.

Arquitetura e princípio de treinamento: A maioria dos LLMs (por exemplo, GPT) são transformadores autorregressivos, treinados para prever o próximo token. Seu objetivo é maximizar a verossimilhança do texto, e não verificar a veracidade das afirmações^[2]. O modelo não distingue fatos de ficção nos dados de treinamento, percebendo tudo como padrões textuais^[2].
Qualidade dos dados de treinamento: Os LLMs são treinados em enormes corpus de texto da internet, que contêm muitas imprecisões, mitos e informações desatualizadas^[1]. O modelo memoriza e reproduz esses erros. O knowledge cutoff (limite de conhecimento) também é importante — o ponto no tempo até o qual o modelo possui informações.
Método de geração de texto: A natureza estocástica da geração (amostragem com temperatura) permite que o modelo crie respostas mais "criativas", mas menos precisas. O comprimento limitado do contexto pode fazer com que o modelo "esqueça" detalhes iniciais do diálogo e comece a se contradizer^[6].

Métodos de avaliação e medição

Para detectar e medir alucinações, são utilizadas métricas automáticas, avaliação humana e benchmarks especializados.

Métricas automáticas: Incluem abordagens onde outro LLM atua como um "juiz" (LLM-as-a-judge) para avaliar a correção da resposta^[9], ou a análise da entropia (incerteza) do modelo durante a geração^[10].
Anotação humana: Considerada o "padrão-ouro". Especialistas ou avaliadores de crowdsourcing avaliam manualmente as respostas, marcando os erros. Este método é usado no treinamento de modelos com RLHF^[11].
Benchmarks e testes de estresse: Foram criados conjuntos de dados especiais, como o TruthfulQA, que contém perguntas que provocam o modelo a reproduzir mitos comuns^[12]. Existem também leaderboards, como o Hugging Face Hallucination Leaderboard, onde os modelos são comparados pelo nível de alucinações^[13].

Métodos de mitigação e prevenção

Geração Aumentada por Recuperação (RAG): A abordagem mais bem-sucedida, que "ancora" o modelo a conhecimentos externos. Antes de gerar uma resposta, o modelo recebe informações relevantes de um banco de dados, sistema de busca ou API. Isso permite que o modelo baseie sua resposta em dados verificados, em vez de suposições^[2].
Cadeia de Pensamento (Chain-of-Thought) e autoverificação: O modelo primeiro gera um raciocínio passo a passo antes de dar a resposta final, o que aumenta a precisão. Em métodos mais avançados, como a Autoverificação (Self-Verification), o modelo gera uma resposta preliminar e depois recebe a tarefa de verificá-la e corrigi-la^[14].
Regras e filtros integrados: Os modelos são treinados para se recusar a responder quando não têm certeza. Por exemplo, os modelos Claude da Anthropic seguem o princípio da "veracidade" e frequentemente respondem "Não sei ao certo...", em vez de inventar fatos^[11].
Integração com ferramentas externas: Modelos como o Gemini podem reconhecer automaticamente quando precisam de uma ferramenta externa (por exemplo, uma calculadora para cálculos ou uma busca para notícias recentes) e usá-la, o que reduz significativamente o número de alucinações^[11].

Riscos e consequências

Riscos legais e de reputação: Na área jurídica, as alucinações podem ter consequências graves. O caso Mata v. Avianca (2023) tornou-se amplamente conhecido, no qual um advogado usou o ChatGPT para pesquisar precedentes judiciais, e o modelo inventou vários casos inexistentes. Os advogados foram multados, e o incidente serviu como uma lição sobre a inadmissibilidade de confiar na IA sem verificação^[1].
Disseminação de desinformação: Em escala social, os LLMs podem agravar o problema das notícias falsas. É conhecido o caso do modelo Galactica da Meta, criado para auxiliar cientistas, mas que começou a gerar textos pseudocientíficos com experimentos e referências inventadas. Após três dias, o acesso público ao modelo foi encerrado^[15].
Tomada de decisões equivocadas: Os usuários, especialmente os menos experientes, tendem a confiar em respostas formuladas com confiança pela IA, o que pode levar à tomada de decisões erradas em finanças, medicina e outras áreas críticas^[7].

Exemplos práticos

Caso da Air Canada (2023): O chatbot da companhia aérea inventou uma política de reembolso de passagens inexistente. Quando um cliente exigiu que ela fosse aplicada, a empresa se recusou. O Tribunal de Transportes do Canadá determinou que a Air Canada era responsável pela informação fornecida por seu chatbot e deveria compensar o cliente por suas perdas^[9].
Ação de difamação contra a OpenAI (2023): O radialista Mark Walters processou a OpenAI porque o ChatGPT, em resposta à consulta de um jornalista, o acusou falsamente de fraude. Este caso destacou a responsabilidade legal das empresas pelo conteúdo gerado por seus modelos^[6].

Links

The Beginner's Guide to Hallucinations in Large Language Models — um guia detalhado da Lakera
Survey of Hallucination in Natural Language Generation — uma revisão científica do fenômeno no arXiv

Literatura

Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 ^2.6 ^2.7 ^2.8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]
↑ «Hallucination (artificial intelligence)». In Wikipedia. [3]
↑ «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [fonte não especificada no texto].
↑ «Cambridge Dictionary adds new definition for 'hallucinate'». [fonte não especificada no texto].
↑ ^6.0 ^6.1 ^6.2 ^6.3 ^6.4 ^6.5 ^6.6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]
↑ ^7.0 ^7.1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]
↑ [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
↑ ^9.0 ^9.1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]
↑ «How to Perform Hallucination Detection for LLMs». Kolena. [8]
↑ ^11.0 ^11.1 ^11.2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]
↑ «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]
↑ «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]
↑ «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]
↑ «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]

[lakera-guide-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]

[astera-guide-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 ^2.6 ^2.7 ^2.8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]

[wikipedia-hallucination-3] «Hallucination (artificial intelligence)». In Wikipedia. [3]

[openai-description-4] «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [fonte não especificada no texto].

[cambridge-dict-5] «Cambridge Dictionary adds new definition for 'hallucinate'». [fonte não especificada no texto].

[nexla-guide-6] 6.0 ^6.1 ^6.2 ^6.3 ^6.4 ^6.5 ^6.6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]

[quickcreator-tips-7] 7.0 ^7.1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]

[codemirage-paper-8] [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]

[evidently-blog-9] 9.0 ^9.1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]

[kolena-blog-10] «How to Perform Hallucination Detection for LLMs». Kolena. [8]

[chatgpt-comparison-11] 11.0 ^11.1 ^11.2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]

[mastering-llm-accuracy-12] «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]

[llm-benchmarks-arize-13] «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]

[rag-cove-paper-14] «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]

[galactica-failure-15] «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Alucinações e respostas incorretas de LLMs

Contents

Definições e classificação de alucinações

Alucinações factuais

Erros lógicos

Alucinações contextuais

Inconsistência

Alucinações em código

Causas de ocorrência

Métodos de avaliação e medição

Métodos de mitigação e prevenção

Riscos e consequências

Exemplos práticos

Links

Literatura

Notas

Navigation menu

Alucinações e respostas incorretas de LLMs

Definições e classificação de alucinações

Alucinações factuais

Erros lógicos

Alucinações contextuais

Inconsistência

Alucinações em código

Causas de ocorrência

Métodos de avaliação e medição

Métodos de mitigação e prevenção

Riscos e consequências

Exemplos práticos

Links

Literatura

Notas

Navigation menu

Search