Inteligência Artificial Constitucional

Inteligência Artificial Constitucional (Constitutional AI, CAI) é um método de treinamento de grandes modelos de linguagem (LLM) baseado no uso de um conjunto explícito de regras e princípios (a chamada “constituição”) para moldar um comportamento seguro, ético e previsível da IA. A abordagem foi desenvolvida pela empresa de pesquisa Anthropic em 2022 como uma alternativa ao aprendizado por reforço com feedback humano (RLHF).

A CAI permite que o modelo avalie e corrija autonomamente seu comportamento de acordo com um sistema de valores predefinido, garantindo um equilíbrio entre utilidade, honestidade e inofensividade.

História e motivação

O método foi proposto por pesquisadores da Anthropic em resposta às limitações da abordagem RLHF, incluindo:

a necessidade de anotação manual em grande escala;
a falta de transparência nos valores assimilados pelo modelo;
a tendência dos modelos a recusar solicitações potencialmente seguras;
dificuldades em transferir valores para outros contextos culturais e normativos.

A CAI foi desenvolvida com o objetivo de aumentar a transparência e a escalabilidade do treinamento de uma IA ética, garantindo ao mesmo tempo a conformidade com direitos e normas fundamentais.

Base teórica

A CAI se baseia na ideia de fornecer explicitamente ao modelo um conjunto de regras (uma constituição) que reflita valores humanos universais. Exemplos de tais princípios incluem:

respeito aos direitos humanos (baseado na Declaração Universal dos Direitos Humanos^[1]);
proibição de discriminação, agressão e toxicidade;
proteção de informações confidenciais;
prioridade à honestidade e à precisão factual;
incentivo à cooperação e à interação não violenta.

Ao contrário do RLHF^[2], onde as diretrizes de comportamento do modelo são definidas indiretamente através das preferências dos anotadores, a CAI utiliza uma lista de disposições normativas formuladas explicitamente, que está disponível para verificação e edição.

Arquitetura e treinamento

A CAI é implementada em duas etapas:

Treinamento com autocrítica (Self-Critique Phase): O modelo gera uma resposta a uma solicitação e, em seguida, usando os princípios da constituição, analisa e corrige autonomamente sua própria resposta se ela violar as normas estabelecidas. Tais pares (resposta original e corrigida) são usados para o ajuste fino supervisionado (supervised fine-tuning) do modelo.
Aprendizado por reforço com feedback de IA (RLAIF): Para múltiplos pares de respostas, um modelo-juiz (geralmente o mesmo modelo) compara as variantes do ponto de vista da conformidade com a constituição. Em seguida, um modelo de recompensa é treinado, e o modelo principal é ajustado usando RL (por exemplo, PPO) com base nesse feedback. A metodologia evita completamente a anotação manual de conteúdo tóxico e se baseia no controle automatizado da adesão aos valores.

Vantagens e características

Transparência: a constituição pode ser publicada, revisada por pares e auditada.
Escalabilidade: não há necessidade de anotação manual dispendiosa.
Segurança: redução dos riscos de comportamento prejudicial ou discriminatório do modelo.
Utilidade: o modelo não tende a recusas excessivas, como ocorre com o RLHF.
Controlabilidade: os valores podem ser adaptados a contextos jurídicos ou culturais.

A constituição popular da IA: experimento de 2023

Em 2023, a empresa Anthropic, em colaboração com a iniciativa de pesquisa Collective Intelligence Project^[3], realizou o primeiro experimento do gênero para desenvolver uma “constituição popular” para a IA^[4]. O objetivo do projeto era descobrir como a opinião pública e os princípios democráticos poderiam ser integrados à formulação de restrições normativas para o comportamento de modelos de linguagem.

O estudo envolveu mais de 1.000 pessoas, representando uma amostra demograficamente equilibrada de cidadãos dos EUA. Os participantes foram convidados a avaliar e selecionar os valores que a IA deveria seguir, bem como a formular princípios comportamentais específicos para assistentes de chat. O processo utilizou métodos de votação coletiva, ranqueamento e escolha argumentativa — incluindo versões modificadas de mecanismos como Deliberative Polling e Quadratic Voting. Principais características do experimento:

Escala — mais de 1.000 entrevistados, cobrindo um amplo espectro de visões políticas, status sociais e níveis educacionais;
Procedimento — discussão e refinamento iterativo das normas, votação dos princípios, verificação das formulações;
Resultado — formulação de uma constituição alternativa para a IA, orientada por preferências expressas democraticamente.

A análise comparativa entre a constituição “popular” e a original (desenvolvida por especialistas da Anthropic) revelou uma coincidência significativa nos princípios básicos:

proibição da discriminação,
incentivo à honestidade,
respeito à privacidade.

No entanto, a versão “popular” mostrou-se mais focada em:

igualdade de acesso à informação;
objetividade e imparcialidade das respostas;
direito do usuário a explicações do modelo.

O experimento demonstrou que a incorporação de mecanismos democráticos no processo de criação de marcos normativos para a IA pode contribuir para:

a legitimidade do comportamento da IA aos olhos dos usuários;
a redução dos riscos de viés cultural ou político;
uma maior aceitação dos sistemas de IA na sociedade.

Literatura

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Huang, S. et al. (2024). Collective Constitutional AI: Aligning a Language Model with Public Input. arXiv:2406.07814.
Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
Sun, Z. et al. (2023). Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. arXiv:2305.03047.
Wang, Y. et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
Petridis, S. et al. (2024). ConstitutionalExperts: Training a Mixture of Principle-based Prompts. arXiv:2403.04894.
Huang, S. & Siddarth, D. (2024). ConstitutionMaker: Interactively Critiquing Large Language Models with Public Principles. ACM CHI 2024. DOI:10.1145/3640543.3645144.
Bai, Y. et al. (2023). Training a Helpful and Harmless Assistant with RLHF and RLAIF. Anthropic Technical Report. RL repository.
Glaese, A. et al. (2024). ConstitutionalExperts: Towards Automated Principle Refinement for Aligned Language Models. NeurIPS 2024 Workshop. arXiv:2403.04894.
Lovitt, L. et al. (2024). Redefining Superalignment: From Weak- to Strong-Alignment. arXiv:2504.17404.

Referências

↑ «Declaração Universal dos Direitos Humanos». [1]
↑ «Reinforcement Learning from Human Feedback». Na Wikipedia [2]
↑ «The Collective Intelligence Project». https://www.cip.org.[3]
↑ «Collective Constitutional AI: Aligning a Language Model with Public Input». [4]

[1] «Declaração Universal dos Direitos Humanos». [1]

[2] «Reinforcement Learning from Human Feedback». Na Wikipedia [2]

[3] «The Collective Intelligence Project». https://www.cip.org.[3]

[4] «Collective Constitutional AI: Aligning a Language Model with Public Input». [4]

[1]

[2]

[3]

[4]

Inteligência Artificial Constitucional

Contents

História e motivação

Base teórica

Arquitetura e treinamento

Vantagens e características

A constituição popular da IA: experimento de 2023

Literatura

Referências

Navigation menu

Inteligência Artificial Constitucional

História e motivação

Base teórica

Arquitetura e treinamento

Vantagens e características

A constituição popular da IA: experimento de 2023

Literatura

Referências

Navigation menu

Search