Alucinações e respostas incorretas de LLMs

From Systems analysis wiki
Jump to navigation Jump to search

Alucinação (do inglês hallucination) no contexto de grandes modelos de linguagem (LLM) é o fenômeno no qual o modelo gera com confiança uma resposta que parece plausível (plausible), mas que na verdade não corresponde à realidade, ao contexto fornecido ou é internamente contraditória[1][2]. O modelo "inventa" fatos, detalhes ou conclusões lógicas que não estão presentes nos dados de origem.

É importante notar que a alucinação não é uma falha ou um bug no sentido tradicional. O modelo funciona como foi projetado: ele prevê a continuação mais provável do texto com base em padrões extraídos dos dados de treinamento. Ele não possui um mecanismo integrado de verificação da veracidade[3]. As alucinações se distinguem dos erros simples por representarem informações apresentadas com confiança, mas falsas, muitas vezes incluindo fatos, referências ou eventos inexistentes[4]. Esse fenômeno se tornou tão significativo que, em 2023, o Dicionário Cambridge adicionou um novo significado ao termo "hallucination", referente à inteligência artificial[5].

Definições e classificação de alucinações

Embora vários termos sejam utilizados (por exemplo, "confabulação", "invenção"), as alucinações em LLMs podem ser divididas em duas grandes categorias: relacionadas à veracidade factual e relacionadas à fidelidade à fonte (consistência contextual)[6].

Alucinações factuais

Este é o caso em que o modelo apresenta informações factualmente incorretas sobre o mundo real. O modelo afirma um "fato" falso como verdadeiro[1].

  • Exemplo: "Charles Lindbergh foi a primeira pessoa a pisar na superfície da Lua" — um fato completamente fictício.
  • Citações e referências falsas: O modelo pode inventar uma referência a um trabalho científico ou a uma lei inexistente, imitando o formato de uma referência real[2]. Isso mina a confiança nos modelos, especialmente em aplicações que exigem precisão (educação, notícias, consultoria)[7].

Erros lógicos

O modelo comete uma inconsistência ou um erro no raciocínio. Fatos individuais na resposta podem estar corretos, mas a conclusão é ilógica ou contradiz a lógica elementar[2]. Isso ocorre frequentemente em raciocínios complexos ou em tarefas de matemática e causalidade, onde o modelo opera com base em conexões probabilísticas entre palavras, e não em lógica formal[2][2].

  • Exemplo: "Como os pássaros voam, os astronautas não sentem a gravidade" — o texto parece coeso, mas é logicamente incorreto.

Alucinações contextuais

A resposta do modelo não corresponde ao contexto ou à instrução fornecida. O modelo "sai" do contexto, adicionando informações desnecessárias ou ignorando as necessárias[1].

  • Violação da instrução: Ao pedido para "traduzir o texto para o espanhol", o modelo responde em inglês[1].
  • Informação não proveniente da fonte: Em uma tarefa de sumarização, o modelo "adiciona" fatos que não estão no documento original ou os distorce[1].
  • Mistura de contextos: No meio da resposta, o modelo pode de repente começar a falar sobre algo de outra área. Por exemplo, em resposta a uma pergunta sobre o comissário da NBA Adam Silver, o modelo pode mudar para seu antecessor David Stern, misturando dois contextos diferentes[6].

Inconsistência

Uma variedade de alucinação na qual o modelo se contradiz dentro de uma única resposta ou de uma série de respostas[6]. Um estudo descobriu que o nível de autocontradição nas respostas do ChatGPT é de aproximadamente 14%[6][6].

  • Exemplo: "A empresa X foi fundada em 1990... e algumas frases depois... A empresa X, fundada em 2000..."

Alucinações em código

LLMs treinados com código podem gerar trechos sintaticamente corretos, mas não funcionais, utilizando funções, bibliotecas ou parâmetros inexistentes[2]. Por exemplo, o modelo pode gerar `import quantum` em Python, embora esse módulo padrão não exista. Em 2024, o termo "code hallucination" foi proposto e o benchmark CodeMirage foi criado para sistematizar esse problema[8].

Causas de ocorrência

O fenômeno das alucinações é causado por uma combinação de fatores, desde a arquitetura do modelo até a qualidade dos dados.

  • Arquitetura e princípio de treinamento: A maioria dos LLMs (por exemplo, GPT) são transformadores autorregressivos, treinados para prever o próximo token. Seu objetivo é maximizar a verossimilhança do texto, e não verificar a veracidade das afirmações[2]. O modelo não distingue fatos de ficção nos dados de treinamento, percebendo tudo como padrões textuais[2].
  • Qualidade dos dados de treinamento: Os LLMs são treinados em enormes corpus de texto da internet, que contêm muitas imprecisões, mitos e informações desatualizadas[1]. O modelo memoriza e reproduz esses erros. O knowledge cutoff (limite de conhecimento) também é importante — o ponto no tempo até o qual o modelo possui informações.
  • Método de geração de texto: A natureza estocástica da geração (amostragem com temperatura) permite que o modelo crie respostas mais "criativas", mas menos precisas. O comprimento limitado do contexto pode fazer com que o modelo "esqueça" detalhes iniciais do diálogo e comece a se contradizer[6].

Métodos de avaliação e medição

Para detectar e medir alucinações, são utilizadas métricas automáticas, avaliação humana e benchmarks especializados.

  • Métricas automáticas: Incluem abordagens onde outro LLM atua como um "juiz" (LLM-as-a-judge) para avaliar a correção da resposta[9], ou a análise da entropia (incerteza) do modelo durante a geração[10].
  • Anotação humana: Considerada o "padrão-ouro". Especialistas ou avaliadores de crowdsourcing avaliam manualmente as respostas, marcando os erros. Este método é usado no treinamento de modelos com RLHF[11].
  • Benchmarks e testes de estresse: Foram criados conjuntos de dados especiais, como o TruthfulQA, que contém perguntas que provocam o modelo a reproduzir mitos comuns[12]. Existem também leaderboards, como o Hugging Face Hallucination Leaderboard, onde os modelos são comparados pelo nível de alucinações[13].

Métodos de mitigação e prevenção

  • Geração Aumentada por Recuperação (RAG): A abordagem mais bem-sucedida, que "ancora" o modelo a conhecimentos externos. Antes de gerar uma resposta, o modelo recebe informações relevantes de um banco de dados, sistema de busca ou API. Isso permite que o modelo baseie sua resposta em dados verificados, em vez de suposições[2].
  • Cadeia de Pensamento (Chain-of-Thought) e autoverificação: O modelo primeiro gera um raciocínio passo a passo antes de dar a resposta final, o que aumenta a precisão. Em métodos mais avançados, como a Autoverificação (Self-Verification), o modelo gera uma resposta preliminar e depois recebe a tarefa de verificá-la e corrigi-la[14].
  • Regras e filtros integrados: Os modelos são treinados para se recusar a responder quando não têm certeza. Por exemplo, os modelos Claude da Anthropic seguem o princípio da "veracidade" e frequentemente respondem "Não sei ao certo...", em vez de inventar fatos[11].
  • Integração com ferramentas externas: Modelos como o Gemini podem reconhecer automaticamente quando precisam de uma ferramenta externa (por exemplo, uma calculadora para cálculos ou uma busca para notícias recentes) e usá-la, o que reduz significativamente o número de alucinações[11].

Riscos e consequências

  • Riscos legais e de reputação: Na área jurídica, as alucinações podem ter consequências graves. O caso Mata v. Avianca (2023) tornou-se amplamente conhecido, no qual um advogado usou o ChatGPT para pesquisar precedentes judiciais, e o modelo inventou vários casos inexistentes. Os advogados foram multados, e o incidente serviu como uma lição sobre a inadmissibilidade de confiar na IA sem verificação[1].
  • Disseminação de desinformação: Em escala social, os LLMs podem agravar o problema das notícias falsas. É conhecido o caso do modelo Galactica da Meta, criado para auxiliar cientistas, mas que começou a gerar textos pseudocientíficos com experimentos e referências inventadas. Após três dias, o acesso público ao modelo foi encerrado[15].
  • Tomada de decisões equivocadas: Os usuários, especialmente os menos experientes, tendem a confiar em respostas formuladas com confiança pela IA, o que pode levar à tomada de decisões erradas em finanças, medicina e outras áreas críticas[7].

Exemplos práticos

  • Caso da Air Canada (2023): O chatbot da companhia aérea inventou uma política de reembolso de passagens inexistente. Quando um cliente exigiu que ela fosse aplicada, a empresa se recusou. O Tribunal de Transportes do Canadá determinou que a Air Canada era responsável pela informação fornecida por seu chatbot e deveria compensar o cliente por suas perdas[9].
  • Ação de difamação contra a OpenAI (2023): O radialista Mark Walters processou a OpenAI porque o ChatGPT, em resposta à consulta de um jornalista, o acusou falsamente de fraude. Este caso destacou a responsabilidade legal das empresas pelo conteúdo gerado por seus modelos[6].

Literatura

  • Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
  • Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
  • Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
  • Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
  • Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
  • O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
  • Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
  • Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
  • Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
  • Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.

Notas

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 «The Beginner's Guide to Hallucinations in Large Language Models». Lakera. [1]
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 «What Is LLM Hallucination and How To Prevent It». Astera. [2]
  3. «Hallucination (artificial intelligence)». In Wikipedia. [3]
  4. «OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty'». [fonte não especificada no texto].
  5. «Cambridge Dictionary adds new definition for 'hallucinate'». [fonte não especificada no texto].
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 «LLM Hallucination—Types, Causes, and Solutions». Nexla. [4]
  7. 7.0 7.1 «Effective Tips to Prevent AI Hallucinations in Generative AI». QuickCreator. [5]
  8. [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
  9. 9.0 9.1 «LLM hallucinations and failures: lessons from 4 examples». Evidently AI Blog. [7]
  10. «How to Perform Hallucination Detection for LLMs». Kolena. [8]
  11. 11.0 11.1 11.2 «ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report». DataStudios. [9]
  12. «Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models». Stephen Weber on Medium. [10]
  13. «LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes». Arize Blog. [11]
  14. «Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation». arXiv. [12]
  15. «Why Meta Took Down its 'Hallucinating' AI Model Galactica?». Analytics India Magazine. [13]