Geração de Dados Sintéticos

A geração de dados sintéticos com LLMs é uma tecnologia para a criação artificial de dados que, por suas características estatísticas e estruturais, imitam dados reais, mas não contêm informações pessoais factuais. Essa abordagem, que utiliza as capacidades de grandes modelos de linguagem (LLMs), tornou-se uma ferramenta crucial na aprendizagem de máquina moderna para resolver problemas de escassez de dados, confidencialidade e o alto custo da rotulagem manual^[1].

Definição e Pré-requisitos

O que são dados sintéticos?

Dados sintéticos são informações geradas artificialmente que reproduzem as propriedades estatísticas e os padrões de um conjunto de dados original e real. O Instituto Nacional de Padrões e Tecnologia dos EUA (NIST) os define como dados que preservam as propriedades estatísticas do original, mas não revelam detalhes individuais^[2]. Diferente da simples desidentificação (anonimização), a síntese de dados cria registros completamente novos, o que garante um nível mais elevado de proteção à privacidade.

Por que surgiu a necessidade?

O crescente interesse na geração sintética é impulsionado por vários fatores:

Escassez de dados: Em muitas áreas, especialmente as altamente especializadas, não há dados rotulados de qualidade suficiente para treinar modelos robustos.
Alto custo de rotulagem: A rotulagem manual de dados é um processo trabalhoso e caro.
Requisitos de confidencialidade: Normas legais e éticas (como o GDPR) restringem o uso de dados reais que contenham informações pessoais, médicas ou financeiras.
Desbalanceamento de classes: Em dados reais, alguns eventos importantes, mas raros (edge cases), podem estar sub-representados, o que impede o modelo de aprendê-los adequadamente.

LLMs, treinados em enormes corpus de texto e código, tornaram-se uma ferramenta poderosa para resolver esses problemas, pois são capazes de gerar conteúdo coerente e diversificado que imita os estilos e as distribuições de dados reais.

Principais métodos de geração com LLMs

Existem várias abordagens principais para a criação de dados sintéticos usando LLMs.

1. Geração baseada em prompts (Prompt-based)

Este é um método direto no qual o LLM gera dados com base em uma solicitação de texto (prompt).

Zero-shot (sem exemplos): O modelo gera exemplos com base apenas na descrição da tarefa, sem o fornecimento de amostras. Essa abordagem promove a diversidade, mas pode levar a resultados menos relevantes.
Few-shot (com poucos exemplos): O prompt inclui alguns exemplos (amostras) da saída desejada. Isso orienta o modelo e aumenta a relevância dos dados gerados, mas acarreta o risco de duplicação e perda de diversidade, pois o modelo tende a copiar os padrões^[1].

2. Geração Aumentada por Recuperação (Retrieval-Augmented)

Este método visa aumentar a correção factual dos dados sintéticos e reduzir o risco de alucinações. O modelo não depende exclusivamente de seu conhecimento interno, mas utiliza um contexto fornecido de uma fonte externa confiável. Por exemplo, para gerar um par "pergunta-resposta", primeiro é extraído um parágrafo relevante da Wikipédia, e depois o LLM é solicitado a formular uma pergunta e uma resposta estritamente com base nesse texto.

Esta classe de métodos utiliza um ciclo de feedback para melhorar a qualidade dos dados. O exemplo mais conhecido é o método Self-Instruct^[1].

O modelo gera um conjunto inicial de dados.
Esses dados são usados para o ajuste fino (fine-tuning) do próprio modelo (ou de uma cópia).
Os erros e pontos fracos do modelo nos dados gerados são analisados.
O modelo é solicitado a gerar novos exemplos, mais complexos, semelhantes àqueles em que errou.

Foi seguindo esse esquema que o famoso conjunto de dados Stanford Alpaca foi criado — 52.000 pares de "instrução-resposta", gerados pelo modelo GPT-3, que permitiram o ajuste fino do modelo de código aberto LLaMA para o nível de um assistente que segue instruções.

4. Pós-processamento e Filtragem

Após a geração dos dados, a filtragem é sempre aplicada para remover exemplos de baixa qualidade. Os métodos variam desde os mais simples (remoção de duplicatas, verificação de formato) até os mais complexos, como:

Uso de um modelo-crítico: Um classificador separado é treinado para distinguir dados reais de sintéticos e descartar as amostras menos realistas.
Filtragem por confiança: Apenas os exemplos para os quais o LLM prevê a resposta/rótulo correto com alta confiança são mantidos.
Ponderação de dados: A exemplos suspeitos de erros ou alucinações é atribuído um peso menor na função de perda durante o treinamento para reduzir sua influência negativa (método SunGen).

5. Aprendizagem com Feedback de Execução (Execution Feedback)

Este método é particularmente eficaz para a geração de código de software. Diferente do texto em linguagem natural, o código tem um critério formal de correção — ele pode ser executado. O ciclo funciona da seguinte forma:

O LLM gera o código para resolver uma tarefa.
O código é executado automaticamente e verificado em relação a testes.
As soluções corretas são incluídas no conjunto de treinamento. As incorretas são descartadas, ou o modelo recebe um sinal (recompensa) para corrigir o erro.

Aplicações de Dados Sintéticos

Melhoria de tarefas em condições de escassez de dados: Dados sintéticos são mais eficazes quando há poucos dados reais rotulados. Estudos mostram que adicionar 100 exemplos sintéticos a 100 exemplos reais pode aumentar a precisão de um classificador em 3–26%^[3].
Criação de conjuntos de instruções (Instruction Tuning): Projetos como Alpaca e Code Alpaca demonstraram que, com LLMs, é possível criar conjuntos de dados grandes e de alta qualidade para treinar modelos assistentes praticamente do zero.
Busca de informações e resposta a perguntas (QA): O método InPars usa LLMs para gerar consultas de busca para documentos existentes. Isso permite a criação automática de pares "pergunta — documento relevante" para treinar sistemas de busca.
Proteção da confidencialidade: Em medicina e finanças, dados sintéticos são usados para treinar modelos sem acesso a dados pessoais reais. Por exemplo, o Departamento de Assuntos de Veteranos dos EUA gerou dados médicos sintéticos durante a pandemia de COVID-19 para compartilhamento de informações^[2].

Vantagens e Riscos

Vantagens

Redução de custos e aceleração do desenvolvimento: A geração de dados por um modelo é significativamente mais barata e rápida do que a rotulagem manual.
Escalabilidade: Dados sintéticos podem ser gerados em volumes praticamente ilimitados.
Controlabilidade: O desenvolvedor pode ajustar de forma flexível a composição, o estilo e a complexidade dos dados gerados.
Conformidade com a confidencialidade: Fornecem uma alternativa desidentificada para trabalhar com dados sensíveis.
Robustez dos modelos (Robustness): O treinamento com exemplos sintéticos diversos e até mesmo "complicados" torna os modelos menos propensos a sobreajuste (overfitting) e mais resistentes a dados de entrada inesperados.

Limitações e Riscos

Inexatidões factuais (alucinações): LLMs podem gerar fatos incorretos que, ao serem incluídos em um conjunto de treinamento, são reforçados em novos modelos.
Realismo insuficiente: Textos sintéticos podem ser excessivamente padronizados, formais ou não refletir toda a diversidade da linguagem natural, o que reduz a capacidade de generalização do modelo.
Amplificação de vieses sistêmicos (Bias): LLMs herdam e podem amplificar estereótipos sociais e preconceitos presentes em seus dados de treinamento.
Risco de "colapso do modelo": Fenômeno em que o retreinamento de modelos com dados gerados por versões anteriores leva a uma degradação gradual da qualidade e ao "esquecimento" de fenômenos raros.
Vazamentos de confidencialidade potenciais: Sem medidas especiais (como privacidade diferencial), os LLMs podem reproduzir acidentalmente fragmentos de dados reais de seu conjunto de treinamento, o que acarreta um risco de desanonimização^[4].

Perspectivas e Direções de Pesquisa

Automação da seleção de prompts: Desenvolvimento de métodos que encontram automaticamente os prompts ideais para a geração de dados de alta qualidade.
Geração sintética multimodal: Expansão de metodologias para a geração de dados combinados (texto + imagem, áudio, vídeo).
Desenvolvimento de métricas de qualidade: Criação de benchmarks padronizados para avaliar a utilidade, diversidade e realismo dos dados sintéticos.
Gerenciamento de vieses: Desenvolvimento de métodos para controlar e reduzir a parcialidade nos dados gerados, por exemplo, através da geração de exemplos contrafactuais.
Implementação segura na indústria: Elaboração de padrões legais e éticos para o uso de dados sintéticos em áreas críticas.

Links

Referências

Ye, J. et al. (2025). Synthetic Data Generation Using Large Language Models: Advances in Text and Code. arXiv:2503.14023.
Wang, Y. et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
Gao, J. et al. (2022). Self-Guided Noise-Free Data Generation for Efficient Zero-Shot Learning. arXiv:2205.12679.
Jeronymo, V. et al. (2023). InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval. arXiv:2301.01820.
Li, Z. et al. (2023). Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations. ACL 2023.
Shumailov, I. et al. (2023). Nepotistically Trained Generative-AI Models Collapse. arXiv:2311.12202.
Long, L. et al. (2024). On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey. ACL Findings 2024.
Gao, J. C. et al. (2024). Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Synthetic Datasets. OpenReview.
Gehring, J. et al. (2025). RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning. arXiv:2410.02089.
Barr, A. A. et al. (2025). Large Language Models Generating Synthetic Clinical Datasets: A Feasibility and Comparative Analysis with Real-World Perioperative Data. Frontiers in AI.
Rao, H. et al. (2025). A Scoping Review of Synthetic Data Generation for Biomedical Research and Applications. arXiv:2506.16594.

Notas

↑ ^1.0 ^1.1 ^1.2 Ye, J., et al. «Synthetic Data Generation Using Large Language Models: Advances in Text and Code». arXiv:2503.14023 [cs.CL], 20 de março de 2025. [1]
↑ ^2.0 ^2.1 «Federal chief data officers seek information on synthetic data generation». FedScoop. [2]
↑ Li, Zhuoyan, et al. «Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations». ACL Anthology, 2023. [3]
↑ Schoen, F. P., et al. «Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data». Frontiers in Artificial Intelligence, 2025. [4]

[advances_llm_gen-1] 1.0 ^1.1 ^1.2 Ye, J., et al. «Synthetic Data Generation Using Large Language Models: Advances in Text and Code». arXiv:2503.14023 [cs.CL], 20 de março de 2025. [1]

[fedscoop_nist-2] 2.0 ^2.1 «Federal chief data officers seek information on synthetic data generation». FedScoop. [2]

[acl_limitations-3] Li, Zhuoyan, et al. «Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations». ACL Anthology, 2023. [3]

[frontiers_clinical-4] Schoen, F. P., et al. «Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data». Frontiers in Artificial Intelligence, 2025. [4]

[1]

[2]

[3]

[4]

Geração de Dados Sintéticos

Contents

Definição e Pré-requisitos

O que são dados sintéticos?

Por que surgiu a necessidade?

Principais métodos de geração com LLMs

1. Geração baseada em prompts (Prompt-based)

2. Geração Aumentada por Recuperação (Retrieval-Augmented)

3. Refinamento Iterativo e Autoaperfeiçoamento (Self-Refinement)

4. Pós-processamento e Filtragem

5. Aprendizagem com Feedback de Execução (Execution Feedback)

Aplicações de Dados Sintéticos

Vantagens e Riscos

Vantagens

Limitações e Riscos

Perspectivas e Direções de Pesquisa

Links

Referências

Notas

Navigation menu

Geração de Dados Sintéticos

Definição e Pré-requisitos

O que são dados sintéticos?

Por que surgiu a necessidade?

Principais métodos de geração com LLMs

1. Geração baseada em prompts (Prompt-based)

2. Geração Aumentada por Recuperação (Retrieval-Augmented)

3. Refinamento Iterativo e Autoaperfeiçoamento (Self-Refinement)

4. Pós-processamento e Filtragem

5. Aprendizagem com Feedback de Execução (Execution Feedback)

Aplicações de Dados Sintéticos

Vantagens e Riscos

Vantagens

Limitações e Riscos

Perspectivas e Direções de Pesquisa

Links

Referências

Notas

Navigation menu

Search