Alucinações e respostas incorretas de LLMs
Alucinação (do inglês hallucination) no contexto de grandes modelos de linguagem (LLM) é o fenômeno no qual o modelo gera com confiança uma resposta que parece plausível (plausible), mas que na verdade não corresponde à realidade, ao contexto fornecido ou é internamente contraditória[1][2]. O modelo "inventa" fatos, detalhes ou conclusões lógicas que não estão presentes nos dados de origem.
É importante notar que a alucinação não é uma falha ou um bug no sentido tradicional. O modelo funciona como foi projetado: ele prevê a continuação mais provável do texto com base em padrões extraídos dos dados de treinamento. Ele não possui um mecanismo integrado de verificação da veracidade[3]. As alucinações se distinguem dos erros simples por representarem informações apresentadas com confiança, mas falsas, muitas vezes incluindo fatos, referências ou eventos inexistentes[4]. Esse fenômeno se tornou tão significativo que, em 2023, o Dicionário Cambridge adicionou um novo significado ao termo "hallucination", referente à inteligência artificial[5].
Definições e classificação de alucinações
Embora vários termos sejam utilizados (por exemplo, "confabulação", "invenção"), as alucinações em LLMs podem ser divididas em duas grandes categorias: relacionadas à veracidade factual e relacionadas à fidelidade à fonte (consistência contextual)[6].
Alucinações factuais
Este é o caso em que o modelo apresenta informações factualmente incorretas sobre o mundo real. O modelo afirma um "fato" falso como verdadeiro[1].
- Exemplo: "Charles Lindbergh foi a primeira pessoa a pisar na superfície da Lua" — um fato completamente fictício.
- Citações e referências falsas: O modelo pode inventar uma referência a um trabalho científico ou a uma lei inexistente, imitando o formato de uma referência real[2]. Isso mina a confiança nos modelos, especialmente em aplicações que exigem precisão (educação, notícias, consultoria)[7].
Erros lógicos
O modelo comete uma inconsistência ou um erro no raciocínio. Fatos individuais na resposta podem estar corretos, mas a conclusão é ilógica ou contradiz a lógica elementar[2]. Isso ocorre frequentemente em raciocínios complexos ou em tarefas de matemática e causalidade, onde o modelo opera com base em conexões probabilísticas entre palavras, e não em lógica formal[2][2].
- Exemplo: "Como os pássaros voam, os astronautas não sentem a gravidade" — o texto parece coeso, mas é logicamente incorreto.
Alucinações contextuais
A resposta do modelo não corresponde ao contexto ou à instrução fornecida. O modelo "sai" do contexto, adicionando informações desnecessárias ou ignorando as necessárias[1].
- Violação da instrução: Ao pedido para "traduzir o texto para o espanhol", o modelo responde em inglês[1].
- Informação não proveniente da fonte: Em uma tarefa de sumarização, o modelo "adiciona" fatos que não estão no documento original ou os distorce[1].
- Mistura de contextos: No meio da resposta, o modelo pode de repente começar a falar sobre algo de outra área. Por exemplo, em resposta a uma pergunta sobre o comissário da NBA Adam Silver, o modelo pode mudar para seu antecessor David Stern, misturando dois contextos diferentes[6].
Inconsistência
Uma variedade de alucinação na qual o modelo se contradiz dentro de uma única resposta ou de uma série de respostas[6]. Um estudo descobriu que o nível de autocontradição nas respostas do ChatGPT é de aproximadamente 14%[6][6].
- Exemplo: "A empresa X foi fundada em 1990... e algumas frases depois... A empresa X, fundada em 2000..."
Alucinações em código
LLMs treinados com código podem gerar trechos sintaticamente corretos, mas não funcionais, utilizando funções, bibliotecas ou parâmetros inexistentes[2]. Por exemplo, o modelo pode gerar `import quantum` em Python, embora esse módulo padrão não exista. Em 2024, o termo "code hallucination" foi proposto e o benchmark CodeMirage foi criado para sistematizar esse problema[8].
Causas de ocorrência
O fenômeno das alucinações é causado por uma combinação de fatores, desde a arquitetura do modelo até a qualidade dos dados.
- Arquitetura e princípio de treinamento: A maioria dos LLMs (por exemplo, GPT) são transformadores autorregressivos, treinados para prever o próximo token. Seu objetivo é maximizar a verossimilhança do texto, e não verificar a veracidade das afirmações[2]. O modelo não distingue fatos de ficção nos dados de treinamento, percebendo tudo como padrões textuais[2].
- Qualidade dos dados de treinamento: Os LLMs são treinados em enormes corpus de texto da internet, que contêm muitas imprecisões, mitos e informações desatualizadas[1]. O modelo memoriza e reproduz esses erros. O knowledge cutoff (limite de conhecimento) também é importante — o ponto no tempo até o qual o modelo possui informações.
- Método de geração de texto: A natureza estocástica da geração (amostragem com temperatura) permite que o modelo crie respostas mais "criativas", mas menos precisas. O comprimento limitado do contexto pode fazer com que o modelo "esqueça" detalhes iniciais do diálogo e comece a se contradizer[6].
Métodos de avaliação e medição
Para detectar e medir alucinações, são utilizadas métricas automáticas, avaliação humana e benchmarks especializados.
- Métricas automáticas: Incluem abordagens onde outro LLM atua como um "juiz" (LLM-as-a-judge) para avaliar a correção da resposta[9], ou a análise da entropia (incerteza) do modelo durante a geração[10].
- Anotação humana: Considerada o "padrão-ouro". Especialistas ou avaliadores de crowdsourcing avaliam manualmente as respostas, marcando os erros. Este método é usado no treinamento de modelos com RLHF[11].
- Benchmarks e testes de estresse: Foram criados conjuntos de dados especiais, como o TruthfulQA, que contém perguntas que provocam o modelo a reproduzir mitos comuns[12]. Existem também leaderboards, como o Hugging Face Hallucination Leaderboard, onde os modelos são comparados pelo nível de alucinações[13].
Métodos de mitigação e prevenção
- Geração Aumentada por Recuperação (RAG): A abordagem mais bem-sucedida, que "ancora" o modelo a conhecimentos externos. Antes de gerar uma resposta, o modelo recebe informações relevantes de um banco de dados, sistema de busca ou API. Isso permite que o modelo baseie sua resposta em dados verificados, em vez de suposições[2].
- Cadeia de Pensamento (Chain-of-Thought) e autoverificação: O modelo primeiro gera um raciocínio passo a passo antes de dar a resposta final, o que aumenta a precisão. Em métodos mais avançados, como a Autoverificação (Self-Verification), o modelo gera uma resposta preliminar e depois recebe a tarefa de verificá-la e corrigi-la[14].
- Regras e filtros integrados: Os modelos são treinados para se recusar a responder quando não têm certeza. Por exemplo, os modelos Claude da Anthropic seguem o princípio da "veracidade" e frequentemente respondem "Não sei ao certo...", em vez de inventar fatos[11].
- Integração com ferramentas externas: Modelos como o Gemini podem reconhecer automaticamente quando precisam de uma ferramenta externa (por exemplo, uma calculadora para cálculos ou uma busca para notícias recentes) e usá-la, o que reduz significativamente o número de alucinações[11].
Riscos e consequências
- Riscos legais e de reputação: Na área jurídica, as alucinações podem ter consequências graves. O caso Mata v. Avianca (2023) tornou-se amplamente conhecido, no qual um advogado usou o ChatGPT para pesquisar precedentes judiciais, e o modelo inventou vários casos inexistentes. Os advogados foram multados, e o incidente serviu como uma lição sobre a inadmissibilidade de confiar na IA sem verificação[1].
- Disseminação de desinformação: Em escala social, os LLMs podem agravar o problema das notícias falsas. É conhecido o caso do modelo Galactica da Meta, criado para auxiliar cientistas, mas que começou a gerar textos pseudocientíficos com experimentos e referências inventadas. Após três dias, o acesso público ao modelo foi encerrado[15].
- Tomada de decisões equivocadas: Os usuários, especialmente os menos experientes, tendem a confiar em respostas formuladas com confiança pela IA, o que pode levar à tomada de decisões erradas em finanças, medicina e outras áreas críticas[7].
Exemplos práticos
- Caso da Air Canada (2023): O chatbot da companhia aérea inventou uma política de reembolso de passagens inexistente. Quando um cliente exigiu que ela fosse aplicada, a empresa se recusou. O Tribunal de Transportes do Canadá determinou que a Air Canada era responsável pela informação fornecida por seu chatbot e deveria compensar o cliente por suas perdas[9].
- Ação de difamação contra a OpenAI (2023): O radialista Mark Walters processou a OpenAI porque o ChatGPT, em resposta à consulta de um jornalista, o acusou falsamente de fraude. Este caso destacou a responsabilidade legal das empresas pelo conteúdo gerado por seus modelos[6].
Links
- The Beginner's Guide to Hallucinations in Large Language Models — um guia detalhado da Lakera
- Survey of Hallucination in Natural Language Generation — uma revisão científica do fenômeno no arXiv
Literatura
- Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
- Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
- Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
- Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
- Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
- O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
- Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
- Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
- Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
- Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.
Notas
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]
- ↑ «Hallucination (artificial intelligence)». In Wikipedia. [3]
- ↑ «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [fonte não especificada no texto].
- ↑ «Cambridge Dictionary adds new definition for 'hallucinate'». [fonte não especificada no texto].
- ↑ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]
- ↑ 7.0 7.1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]
- ↑ [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
- ↑ 9.0 9.1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]
- ↑ «How to Perform Hallucination Detection for LLMs». Kolena. [8]
- ↑ 11.0 11.1 11.2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]
- ↑ «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]
- ↑ «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]
- ↑ «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]
- ↑ «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]