Inteligência Artificial Constitucional

From Systems analysis wiki
Jump to navigation Jump to search

Inteligência Artificial Constitucional (Constitutional AI, CAI) é um método de treinamento de grandes modelos de linguagem (LLM) baseado no uso de um conjunto explícito de regras e princípios (a chamada “constituição”) para moldar um comportamento seguro, ético e previsível da IA. A abordagem foi desenvolvida pela empresa de pesquisa Anthropic em 2022 como uma alternativa ao aprendizado por reforço com feedback humano (RLHF).

A CAI permite que o modelo avalie e corrija autonomamente seu comportamento de acordo com um sistema de valores predefinido, garantindo um equilíbrio entre utilidade, honestidade e inofensividade.

História e motivação

O método foi proposto por pesquisadores da Anthropic em resposta às limitações da abordagem RLHF, incluindo:

  • a necessidade de anotação manual em grande escala;
  • a falta de transparência nos valores assimilados pelo modelo;
  • a tendência dos modelos a recusar solicitações potencialmente seguras;
  • dificuldades em transferir valores para outros contextos culturais e normativos.

A CAI foi desenvolvida com o objetivo de aumentar a transparência e a escalabilidade do treinamento de uma IA ética, garantindo ao mesmo tempo a conformidade com direitos e normas fundamentais.

Base teórica

A CAI se baseia na ideia de fornecer explicitamente ao modelo um conjunto de regras (uma constituição) que reflita valores humanos universais. Exemplos de tais princípios incluem:

  • respeito aos direitos humanos (baseado na Declaração Universal dos Direitos Humanos[1]);
  • proibição de discriminação, agressão e toxicidade;
  • proteção de informações confidenciais;
  • prioridade à honestidade e à precisão factual;
  • incentivo à cooperação e à interação não violenta.

Ao contrário do RLHF[2], onde as diretrizes de comportamento do modelo são definidas indiretamente através das preferências dos anotadores, a CAI utiliza uma lista de disposições normativas formuladas explicitamente, que está disponível para verificação e edição.

Arquitetura e treinamento

A CAI é implementada em duas etapas:

  1. Treinamento com autocrítica (Self-Critique Phase): O modelo gera uma resposta a uma solicitação e, em seguida, usando os princípios da constituição, analisa e corrige autonomamente sua própria resposta se ela violar as normas estabelecidas. Tais pares (resposta original e corrigida) são usados para o ajuste fino supervisionado (supervised fine-tuning) do modelo.
  2. Aprendizado por reforço com feedback de IA (RLAIF): Para múltiplos pares de respostas, um modelo-juiz (geralmente o mesmo modelo) compara as variantes do ponto de vista da conformidade com a constituição. Em seguida, um modelo de recompensa é treinado, e o modelo principal é ajustado usando RL (por exemplo, PPO) com base nesse feedback. A metodologia evita completamente a anotação manual de conteúdo tóxico e se baseia no controle automatizado da adesão aos valores.

Vantagens e características

  • Transparência: a constituição pode ser publicada, revisada por pares e auditada.
  • Escalabilidade: não há necessidade de anotação manual dispendiosa.
  • Segurança: redução dos riscos de comportamento prejudicial ou discriminatório do modelo.
  • Utilidade: o modelo não tende a recusas excessivas, como ocorre com o RLHF.
  • Controlabilidade: os valores podem ser adaptados a contextos jurídicos ou culturais.

Em 2023, a empresa Anthropic, em colaboração com a iniciativa de pesquisa Collective Intelligence Project[3], realizou o primeiro experimento do gênero para desenvolver uma “constituição popular” para a IA[4]. O objetivo do projeto era descobrir como a opinião pública e os princípios democráticos poderiam ser integrados à formulação de restrições normativas para o comportamento de modelos de linguagem.

O estudo envolveu mais de 1.000 pessoas, representando uma amostra demograficamente equilibrada de cidadãos dos EUA. Os participantes foram convidados a avaliar e selecionar os valores que a IA deveria seguir, bem como a formular princípios comportamentais específicos para assistentes de chat. O processo utilizou métodos de votação coletiva, ranqueamento e escolha argumentativa — incluindo versões modificadas de mecanismos como Deliberative Polling e Quadratic Voting. Principais características do experimento:

  • Escala — mais de 1.000 entrevistados, cobrindo um amplo espectro de visões políticas, status sociais e níveis educacionais;
  • Procedimento — discussão e refinamento iterativo das normas, votação dos princípios, verificação das formulações;
  • Resultado — formulação de uma constituição alternativa para a IA, orientada por preferências expressas democraticamente.

A análise comparativa entre a constituição “popular” e a original (desenvolvida por especialistas da Anthropic) revelou uma coincidência significativa nos princípios básicos:

  • proibição da discriminação,
  • incentivo à honestidade,
  • respeito à privacidade.

No entanto, a versão “popular” mostrou-se mais focada em:

  • igualdade de acesso à informação;
  • objetividade e imparcialidade das respostas;
  • direito do usuário a explicações do modelo.

O experimento demonstrou que a incorporação de mecanismos democráticos no processo de criação de marcos normativos para a IA pode contribuir para:

  • a legitimidade do comportamento da IA aos olhos dos usuários;
  • a redução dos riscos de viés cultural ou político;
  • uma maior aceitação dos sistemas de IA na sociedade.

Literatura

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Huang, S. et al. (2024). Collective Constitutional AI: Aligning a Language Model with Public Input. arXiv:2406.07814.
  • Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
  • Sun, Z. et al. (2023). Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. arXiv:2305.03047.
  • Wang, Y. et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
  • Petridis, S. et al. (2024). ConstitutionalExperts: Training a Mixture of Principle-based Prompts. arXiv:2403.04894.
  • Huang, S. & Siddarth, D. (2024). ConstitutionMaker: Interactively Critiquing Large Language Models with Public Principles. ACM CHI 2024. DOI:10.1145/3640543.3645144.
  • Bai, Y. et al. (2023). Training a Helpful and Harmless Assistant with RLHF and RLAIF. Anthropic Technical Report. RL repository.
  • Glaese, A. et al. (2024). ConstitutionalExperts: Towards Automated Principle Refinement for Aligned Language Models. NeurIPS 2024 Workshop. arXiv:2403.04894.
  • Lovitt, L. et al. (2024). Redefining Superalignment: From Weak- to Strong-Alignment. arXiv:2504.17404.

Referências

  1. «Declaração Universal dos Direitos Humanos». [1]
  2. «Reinforcement Learning from Human Feedback». Na Wikipedia [2]
  3. «The Collective Intelligence Project». https://www.cip.org.[3]
  4. «Collective Constitutional AI: Aligning a Language Model with Public Input». [4]