Inteligência Artificial Constitucional
Inteligência Artificial Constitucional (Constitutional AI, CAI) é um método de treinamento de grandes modelos de linguagem (LLM) baseado no uso de um conjunto explícito de regras e princípios (a chamada “constituição”) para moldar um comportamento seguro, ético e previsível da IA. A abordagem foi desenvolvida pela empresa de pesquisa Anthropic em 2022 como uma alternativa ao aprendizado por reforço com feedback humano (RLHF).
A CAI permite que o modelo avalie e corrija autonomamente seu comportamento de acordo com um sistema de valores predefinido, garantindo um equilíbrio entre utilidade, honestidade e inofensividade.
História e motivação
O método foi proposto por pesquisadores da Anthropic em resposta às limitações da abordagem RLHF, incluindo:
- a necessidade de anotação manual em grande escala;
- a falta de transparência nos valores assimilados pelo modelo;
- a tendência dos modelos a recusar solicitações potencialmente seguras;
- dificuldades em transferir valores para outros contextos culturais e normativos.
A CAI foi desenvolvida com o objetivo de aumentar a transparência e a escalabilidade do treinamento de uma IA ética, garantindo ao mesmo tempo a conformidade com direitos e normas fundamentais.
Base teórica
A CAI se baseia na ideia de fornecer explicitamente ao modelo um conjunto de regras (uma constituição) que reflita valores humanos universais. Exemplos de tais princípios incluem:
- respeito aos direitos humanos (baseado na Declaração Universal dos Direitos Humanos[1]);
- proibição de discriminação, agressão e toxicidade;
- proteção de informações confidenciais;
- prioridade à honestidade e à precisão factual;
- incentivo à cooperação e à interação não violenta.
Ao contrário do RLHF[2], onde as diretrizes de comportamento do modelo são definidas indiretamente através das preferências dos anotadores, a CAI utiliza uma lista de disposições normativas formuladas explicitamente, que está disponível para verificação e edição.
Arquitetura e treinamento
A CAI é implementada em duas etapas:
- Treinamento com autocrítica (Self-Critique Phase): O modelo gera uma resposta a uma solicitação e, em seguida, usando os princípios da constituição, analisa e corrige autonomamente sua própria resposta se ela violar as normas estabelecidas. Tais pares (resposta original e corrigida) são usados para o ajuste fino supervisionado (supervised fine-tuning) do modelo.
- Aprendizado por reforço com feedback de IA (RLAIF): Para múltiplos pares de respostas, um modelo-juiz (geralmente o mesmo modelo) compara as variantes do ponto de vista da conformidade com a constituição. Em seguida, um modelo de recompensa é treinado, e o modelo principal é ajustado usando RL (por exemplo, PPO) com base nesse feedback. A metodologia evita completamente a anotação manual de conteúdo tóxico e se baseia no controle automatizado da adesão aos valores.
Vantagens e características
- Transparência: a constituição pode ser publicada, revisada por pares e auditada.
- Escalabilidade: não há necessidade de anotação manual dispendiosa.
- Segurança: redução dos riscos de comportamento prejudicial ou discriminatório do modelo.
- Utilidade: o modelo não tende a recusas excessivas, como ocorre com o RLHF.
- Controlabilidade: os valores podem ser adaptados a contextos jurídicos ou culturais.
A constituição popular da IA: experimento de 2023
Em 2023, a empresa Anthropic, em colaboração com a iniciativa de pesquisa Collective Intelligence Project[3], realizou o primeiro experimento do gênero para desenvolver uma “constituição popular” para a IA[4]. O objetivo do projeto era descobrir como a opinião pública e os princípios democráticos poderiam ser integrados à formulação de restrições normativas para o comportamento de modelos de linguagem.
O estudo envolveu mais de 1.000 pessoas, representando uma amostra demograficamente equilibrada de cidadãos dos EUA. Os participantes foram convidados a avaliar e selecionar os valores que a IA deveria seguir, bem como a formular princípios comportamentais específicos para assistentes de chat. O processo utilizou métodos de votação coletiva, ranqueamento e escolha argumentativa — incluindo versões modificadas de mecanismos como Deliberative Polling e Quadratic Voting. Principais características do experimento:
- Escala — mais de 1.000 entrevistados, cobrindo um amplo espectro de visões políticas, status sociais e níveis educacionais;
- Procedimento — discussão e refinamento iterativo das normas, votação dos princípios, verificação das formulações;
- Resultado — formulação de uma constituição alternativa para a IA, orientada por preferências expressas democraticamente.
A análise comparativa entre a constituição “popular” e a original (desenvolvida por especialistas da Anthropic) revelou uma coincidência significativa nos princípios básicos:
- proibição da discriminação,
- incentivo à honestidade,
- respeito à privacidade.
No entanto, a versão “popular” mostrou-se mais focada em:
- igualdade de acesso à informação;
- objetividade e imparcialidade das respostas;
- direito do usuário a explicações do modelo.
O experimento demonstrou que a incorporação de mecanismos democráticos no processo de criação de marcos normativos para a IA pode contribuir para:
- a legitimidade do comportamento da IA aos olhos dos usuários;
- a redução dos riscos de viés cultural ou político;
- uma maior aceitação dos sistemas de IA na sociedade.
Literatura
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Huang, S. et al. (2024). Collective Constitutional AI: Aligning a Language Model with Public Input. arXiv:2406.07814.
- Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
- Sun, Z. et al. (2023). Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. arXiv:2305.03047.
- Wang, Y. et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
- Petridis, S. et al. (2024). ConstitutionalExperts: Training a Mixture of Principle-based Prompts. arXiv:2403.04894.
- Huang, S. & Siddarth, D. (2024). ConstitutionMaker: Interactively Critiquing Large Language Models with Public Principles. ACM CHI 2024. DOI:10.1145/3640543.3645144.
- Bai, Y. et al. (2023). Training a Helpful and Harmless Assistant with RLHF and RLAIF. Anthropic Technical Report. RL repository.
- Glaese, A. et al. (2024). ConstitutionalExperts: Towards Automated Principle Refinement for Aligned Language Models. NeurIPS 2024 Workshop. arXiv:2403.04894.
- Lovitt, L. et al. (2024). Redefining Superalignment: From Weak- to Strong-Alignment. arXiv:2504.17404.
Referências