Geração de Dados Sintéticos
A geração de dados sintéticos com LLMs é uma tecnologia para a criação artificial de dados que, por suas características estatísticas e estruturais, imitam dados reais, mas não contêm informações pessoais factuais. Essa abordagem, que utiliza as capacidades de grandes modelos de linguagem (LLMs), tornou-se uma ferramenta crucial na aprendizagem de máquina moderna para resolver problemas de escassez de dados, confidencialidade e o alto custo da rotulagem manual[1].
Definição e Pré-requisitos
O que são dados sintéticos?
Dados sintéticos são informações geradas artificialmente que reproduzem as propriedades estatísticas e os padrões de um conjunto de dados original e real. O Instituto Nacional de Padrões e Tecnologia dos EUA (NIST) os define como dados que preservam as propriedades estatísticas do original, mas não revelam detalhes individuais[2]. Diferente da simples desidentificação (anonimização), a síntese de dados cria registros completamente novos, o que garante um nível mais elevado de proteção à privacidade.
Por que surgiu a necessidade?
O crescente interesse na geração sintética é impulsionado por vários fatores:
- Escassez de dados: Em muitas áreas, especialmente as altamente especializadas, não há dados rotulados de qualidade suficiente para treinar modelos robustos.
- Alto custo de rotulagem: A rotulagem manual de dados é um processo trabalhoso e caro.
- Requisitos de confidencialidade: Normas legais e éticas (como o GDPR) restringem o uso de dados reais que contenham informações pessoais, médicas ou financeiras.
- Desbalanceamento de classes: Em dados reais, alguns eventos importantes, mas raros (edge cases), podem estar sub-representados, o que impede o modelo de aprendê-los adequadamente.
LLMs, treinados em enormes corpus de texto e código, tornaram-se uma ferramenta poderosa para resolver esses problemas, pois são capazes de gerar conteúdo coerente e diversificado que imita os estilos e as distribuições de dados reais.
Principais métodos de geração com LLMs
Existem várias abordagens principais para a criação de dados sintéticos usando LLMs.
1. Geração baseada em prompts (Prompt-based)
Este é um método direto no qual o LLM gera dados com base em uma solicitação de texto (prompt).
- Zero-shot (sem exemplos): O modelo gera exemplos com base apenas na descrição da tarefa, sem o fornecimento de amostras. Essa abordagem promove a diversidade, mas pode levar a resultados menos relevantes.
- Few-shot (com poucos exemplos): O prompt inclui alguns exemplos (amostras) da saída desejada. Isso orienta o modelo e aumenta a relevância dos dados gerados, mas acarreta o risco de duplicação e perda de diversidade, pois o modelo tende a copiar os padrões[1].
2. Geração Aumentada por Recuperação (Retrieval-Augmented)
Este método visa aumentar a correção factual dos dados sintéticos e reduzir o risco de alucinações. O modelo não depende exclusivamente de seu conhecimento interno, mas utiliza um contexto fornecido de uma fonte externa confiável. Por exemplo, para gerar um par "pergunta-resposta", primeiro é extraído um parágrafo relevante da Wikipédia, e depois o LLM é solicitado a formular uma pergunta e uma resposta estritamente com base nesse texto.
3. Refinamento Iterativo e Autoaperfeiçoamento (Self-Refinement)
Esta classe de métodos utiliza um ciclo de feedback para melhorar a qualidade dos dados. O exemplo mais conhecido é o método Self-Instruct[1].
- O modelo gera um conjunto inicial de dados.
- Esses dados são usados para o ajuste fino (fine-tuning) do próprio modelo (ou de uma cópia).
- Os erros e pontos fracos do modelo nos dados gerados são analisados.
- O modelo é solicitado a gerar novos exemplos, mais complexos, semelhantes àqueles em que errou.
Foi seguindo esse esquema que o famoso conjunto de dados Stanford Alpaca foi criado — 52.000 pares de "instrução-resposta", gerados pelo modelo GPT-3, que permitiram o ajuste fino do modelo de código aberto LLaMA para o nível de um assistente que segue instruções.
4. Pós-processamento e Filtragem
Após a geração dos dados, a filtragem é sempre aplicada para remover exemplos de baixa qualidade. Os métodos variam desde os mais simples (remoção de duplicatas, verificação de formato) até os mais complexos, como:
- Uso de um modelo-crítico: Um classificador separado é treinado para distinguir dados reais de sintéticos e descartar as amostras menos realistas.
- Filtragem por confiança: Apenas os exemplos para os quais o LLM prevê a resposta/rótulo correto com alta confiança são mantidos.
- Ponderação de dados: A exemplos suspeitos de erros ou alucinações é atribuído um peso menor na função de perda durante o treinamento para reduzir sua influência negativa (método SunGen).
5. Aprendizagem com Feedback de Execução (Execution Feedback)
Este método é particularmente eficaz para a geração de código de software. Diferente do texto em linguagem natural, o código tem um critério formal de correção — ele pode ser executado. O ciclo funciona da seguinte forma:
- O LLM gera o código para resolver uma tarefa.
- O código é executado automaticamente e verificado em relação a testes.
- As soluções corretas são incluídas no conjunto de treinamento. As incorretas são descartadas, ou o modelo recebe um sinal (recompensa) para corrigir o erro.
Aplicações de Dados Sintéticos
- Melhoria de tarefas em condições de escassez de dados: Dados sintéticos são mais eficazes quando há poucos dados reais rotulados. Estudos mostram que adicionar 100 exemplos sintéticos a 100 exemplos reais pode aumentar a precisão de um classificador em 3–26%[3].
- Criação de conjuntos de instruções (Instruction Tuning): Projetos como Alpaca e Code Alpaca demonstraram que, com LLMs, é possível criar conjuntos de dados grandes e de alta qualidade para treinar modelos assistentes praticamente do zero.
- Busca de informações e resposta a perguntas (QA): O método InPars usa LLMs para gerar consultas de busca para documentos existentes. Isso permite a criação automática de pares "pergunta — documento relevante" para treinar sistemas de busca.
- Proteção da confidencialidade: Em medicina e finanças, dados sintéticos são usados para treinar modelos sem acesso a dados pessoais reais. Por exemplo, o Departamento de Assuntos de Veteranos dos EUA gerou dados médicos sintéticos durante a pandemia de COVID-19 para compartilhamento de informações[2].
Vantagens e Riscos
Vantagens
- Redução de custos e aceleração do desenvolvimento: A geração de dados por um modelo é significativamente mais barata e rápida do que a rotulagem manual.
- Escalabilidade: Dados sintéticos podem ser gerados em volumes praticamente ilimitados.
- Controlabilidade: O desenvolvedor pode ajustar de forma flexível a composição, o estilo e a complexidade dos dados gerados.
- Conformidade com a confidencialidade: Fornecem uma alternativa desidentificada para trabalhar com dados sensíveis.
- Robustez dos modelos (Robustness): O treinamento com exemplos sintéticos diversos e até mesmo "complicados" torna os modelos menos propensos a sobreajuste (overfitting) e mais resistentes a dados de entrada inesperados.
Limitações e Riscos
- Inexatidões factuais (alucinações): LLMs podem gerar fatos incorretos que, ao serem incluídos em um conjunto de treinamento, são reforçados em novos modelos.
- Realismo insuficiente: Textos sintéticos podem ser excessivamente padronizados, formais ou não refletir toda a diversidade da linguagem natural, o que reduz a capacidade de generalização do modelo.
- Amplificação de vieses sistêmicos (Bias): LLMs herdam e podem amplificar estereótipos sociais e preconceitos presentes em seus dados de treinamento.
- Risco de "colapso do modelo": Fenômeno em que o retreinamento de modelos com dados gerados por versões anteriores leva a uma degradação gradual da qualidade e ao "esquecimento" de fenômenos raros.
- Vazamentos de confidencialidade potenciais: Sem medidas especiais (como privacidade diferencial), os LLMs podem reproduzir acidentalmente fragmentos de dados reais de seu conjunto de treinamento, o que acarreta um risco de desanonimização[4].
Perspectivas e Direções de Pesquisa
- Automação da seleção de prompts: Desenvolvimento de métodos que encontram automaticamente os prompts ideais para a geração de dados de alta qualidade.
- Geração sintética multimodal: Expansão de metodologias para a geração de dados combinados (texto + imagem, áudio, vídeo).
- Desenvolvimento de métricas de qualidade: Criação de benchmarks padronizados para avaliar a utilidade, diversidade e realismo dos dados sintéticos.
- Gerenciamento de vieses: Desenvolvimento de métodos para controlar e reduzir a parcialidade nos dados gerados, por exemplo, através da geração de exemplos contrafactuais.
- Implementação segura na indústria: Elaboração de padrões legais e éticos para o uso de dados sintéticos em áreas críticas.
Links
- Artigo de revisão: Synthetic Data Generation Using Large Language Models (2025)
- Blog do Google Research sobre geração de dados com privacidade diferencial
Referências
- Ye, J. et al. (2025). Synthetic Data Generation Using Large Language Models: Advances in Text and Code. arXiv:2503.14023.
- Wang, Y. et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
- Gao, J. et al. (2022). Self-Guided Noise-Free Data Generation for Efficient Zero-Shot Learning. arXiv:2205.12679.
- Jeronymo, V. et al. (2023). InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval. arXiv:2301.01820.
- Li, Z. et al. (2023). Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations. ACL 2023.
- Shumailov, I. et al. (2023). Nepotistically Trained Generative-AI Models Collapse. arXiv:2311.12202.
- Long, L. et al. (2024). On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey. ACL Findings 2024.
- Gao, J. C. et al. (2024). Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Synthetic Datasets. OpenReview.
- Gehring, J. et al. (2025). RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning. arXiv:2410.02089.
- Barr, A. A. et al. (2025). Large Language Models Generating Synthetic Clinical Datasets: A Feasibility and Comparative Analysis with Real-World Perioperative Data. Frontiers in AI.
- Rao, H. et al. (2025). A Scoping Review of Synthetic Data Generation for Biomedical Research and Applications. arXiv:2506.16594.
Notas
- ↑ 1.0 1.1 1.2 Ye, J., et al. «Synthetic Data Generation Using Large Language Models: Advances in Text and Code». arXiv:2503.14023 [cs.CL], 20 de março de 2025. [1]
- ↑ 2.0 2.1 «Federal chief data officers seek information on synthetic data generation». FedScoop. [2]
- ↑ Li, Zhuoyan, et al. «Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations». ACL Anthology, 2023. [3]
- ↑ Schoen, F. P., et al. «Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data». Frontiers in Artificial Intelligence, 2025. [4]