Gemma (Google) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

Gemma é uma família de modelos de linguagem de acesso livre, desenvolvidos e lançados pela Google (divisão Google DeepMind). Os modelos Gemma são baseados na mesma pesquisa e tecnologia da família principal Gemini e são posicionados como suas versões leves e de alto desempenho[1]. O nome vem da palavra latina gemma, que significa "pedra preciosa"[2].

Gemma pertence à categoria de open models (modelos abertos): a Google publica os pesos dos modelos, permitindo que pesquisadores e desenvolvedores os utilizem, re-treinem e distribuam livremente, inclusive em projetos comerciais, desde que cumpram as condições de uso responsável[2]. Essa é uma diferença fundamental em relação aos modelos Gemini, cujo acesso é possível apenas por meio de APIs na nuvem. Os modelos Gemma podem ser executados localmente em hardware de consumo (laptops, desktops com GPU), e não apenas em data centers[3].

Desenvolvimento e lançamentos

A família Gemma inclui várias gerações de modelos, cada uma trazendo melhorias na arquitetura, desempenho e capacidades.

Primeira geração: Gemma 1

A primeira versão do Gemma foi lançada em 21 de fevereiro de 2024[4]. Ela incluía dois modelos de texto baseados na arquitetura de transformer somente decodificador:

  • Gemma 2B (2 bilhões de parâmetros)
  • Gemma 7B (7 bilhões de parâmetros)

Na época do lançamento, a Google afirmou que esses modelos superavam análogos significativamente maiores nos principais benchmarks[2]. Os modelos originais eram predominantemente em inglês, mas foram treinados em uma variedade de dados, incluindo documentos da web, código de programação e problemas matemáticos[1]. Ambos os modelos foram lançados em duas variantes: uma base (pre-trained) e uma ajustada por instruções (instruction-tuned) para seguir melhor os comandos do usuário[2].

Segunda geração: Gemma 2

O Gemma 2 foi anunciado em 27 de junho de 2024 e trouxe melhorias significativas[1].

  • Tamanhos dos modelos: Foram lançados modelos com 9 e 27 bilhões de parâmetros. As variantes menores foram treinadas usando a técnica de destilação de conhecimento de um modelo maior para melhorar a qualidade[5].
  • Janela de contexto: Foi significativamente expandida para 80.000 tokens (em comparação com 8.192 na primeira versão)[6][7].
  • Melhorias arquitetônicas: Foram introduzidos mecanismos de grouped-query attention e um esquema alternado de atenção local e global para um trabalho eficiente com contextos longos[1].

Terceira geração: Gemma 3

O Gemma 3 foi apresentado em março de 2025 como o próximo passo no desenvolvimento da família, com foco em multimodalidade e uma cobertura ampliada de tarefas[6].

  • Multimodalidade: Os modelos passaram a suportar imagens e vídeos como dados de entrada, juntamente com texto.
  • Tamanhos e idiomas: A linha de modelos abrange quatro tamanhos (1B, 4B, 12B, 27B) e suporta até 140 idiomas[6].
  • Janela de contexto: Aumentada para 128.000 tokens[6].

Segundo a Google, o Gemma 3 27B demonstrou resultados no nível dos melhores modelos abertos de sua época, sendo superado nos rankings apenas por modelos especializados como o DeepSeek-R1[6].

Arquitetura e características técnicas

Os modelos Gemma são baseados na arquitetura transformer na configuração "somente decodificador" (decoder-only), semelhante aos modelos GPT[7]. Isso significa que o modelo gera texto de forma autorregressiva, prevendo o próximo token com base em todos os anteriores. As principais soluções técnicas incluem:

  • Embeddings de posição rotacionais (RoPE): Em vez de embeddings de posição absolutos, são usados os RoPE, que permitem codificar eficientemente a informação posicional.
  • Multi-query e Grouped-query attention: Para aceleração e economia de memória em modelos menores (como o Gemma 2B), é utilizada a multi-query attention (uma única chave/valor para todas as cabeças de atenção). No Gemma 2, foi implementado o mecanismo de grouped-query attention, onde as consultas são divididas em grupos, o que representa um compromisso entre velocidade e qualidade[1][7].
  • Esquema de atenção alternado: No Gemma 2, foi implementado um esquema onde camadas com auto-atenção global se alternam com camadas de "janela deslizante" limitada, permitindo o processamento eficiente de contextos longos[1].

Família de modelos e variantes

Além dos modelos básicos universais, a Google lançou várias versões derivadas do Gemma, otimizadas para tarefas específicas.

  • CodeGemma: Um modelo para geração e completação de código de programação, compatível com C++, C#, Go, Java, JavaScript, Python, Rust e outras linguagens[1].
  • DataGemma: Uma família de modelos re-treinados para integração com dados externos usando técnicas de RAG. O modelo é capaz de realizar consultas a bancos de dados (por exemplo, Google Data Commons) para aumentar a precisão factual das respostas[1].
  • PaliGemma: Um modelo multimodal capaz de receber imagens e texto como entrada. Ele é projetado para tarefas de interação visual de perguntas e respostas, como descrição de imagens e reconhecimento de objetos[1].
  • RecurrentGemma: Uma variante experimental com uma arquitetura híbrida Griffin, que combina atenção local e conexões recorrentes lineares. Isso permite acelerar significativamente a geração de sequências longas[7].
  • MedGemma: Uma versão especializada do Gemma 3 para a área médica. Inclui modelos multimodais (4B) e de texto (27B) para análise de imagens médicas (radiografias, tomografias) e documentos clínicos. Os modelos são distribuídos como abertos, mas não se destinam ao uso clínico direto sem validação adicional[8].
  • DolphinGemma: Um projeto de pesquisa para aplicar as tecnologias Gemma na decodificação da comunicação de golfinhos. O modelo foi treinado com gravações de áudio de vários anos e é usado para identificar padrões na linguagem animal[9].

Disponibilidade e aplicação

Os modelos Gemma estão disponíveis nas plataformas Kaggle e Hugging Face, além de estarem integrados aos serviços Google Colab e Vertex AI Model Garden[2]. Para acelerar a inferência, a Google, em colaboração com a NVIDIA, adaptou os modelos para o TensorRT. Os termos de licenciamento do Gemma permitem o uso comercial e a modificação dos modelos, o que os diferencia de alguns outros projetos abertos. A distribuição é regulada pela licença Responsible AI License, que impõe restrições ao uso em certas áreas (por exemplo, desenvolvimento de armas) e exige que os produtos derivados cumpram os princípios de aplicação segura e ética da IA[3].

Segurança e responsabilidade

Os desenvolvedores dedicaram grande atenção às questões de segurança, considerando a natureza aberta dos modelos.

  • Filtragem de dados: Durante a preparação dos conjuntos de dados de treinamento, dados pessoais e outras informações sensíveis foram filtrados automaticamente para reduzir o risco de vazamentos[2].
  • Alinhamento (Alignment): As versões instrucionais dos modelos passaram por um alinhamento multifásico usando as técnicas de Supervised Fine-Tuning (SFT) e RLHF (aprendizagem por reforço com feedback humano) para consolidar estilos de resposta preferenciais[1].
  • Red Teaming: Antes do lançamento, os modelos foram submetidos a testes aprofundados de resistência a solicitações maliciosas. Especialistas tentaram provocar a geração de conteúdo perigoso ou indesejado para identificar vulnerabilidades[3].
  • Kit de ferramentas de IA Responsável (Responsible AI Toolkit): Juntamente com os modelos, a Google lançou um conjunto de ferramentas para facilitar a implementação segura, incluindo o utilitário Gemma Debugger para analisar os estados internos do modelo e classificadores de conteúdo indesejado[2].
  • ShieldGemma: Um modelo de filtro especializado, projetado para prevenir a geração de conteúdo inseguro nas versões multimodais do Gemma[6].

Literatura

  • Mesnard, T. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295.
  • Rivière, M. et al. (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118.
  • Kamath, A. et al. (2025). Gemma 3 Technical Report. arXiv:2503.19786.
  • Zhao, H. et al. (2024). CodeGemma: Open Code Models Based on Gemma. arXiv:2406.11409.
  • Beyer, L. et al. (2024). PaliGemma: A Versatile 3B VLM for Transfer. arXiv:2407.07726.
  • Steiner, A. et al. (2024). PaliGemma 2: A Family of Versatile VLMs for Transfer. arXiv:2412.03555.
  • Botev, A. et al. (2024). RecurrentGemma: Moving Past Transformers for Efficient Open Language Models. arXiv:2404.07839.
  • Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Chinnakonduru, S. S. & Mohapatra, A. (2024). Weighted Grouped Query Attention in Transformers. arXiv:2407.10855.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Radhakrishnan, P. et al. (2024). Knowing When to Ask — Bridging Large Language Models and Data. arXiv:2409.13741.

Notas

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 “What Is Google Gemma?”. IBM. [1]
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 “Gemma: Google introduces new state-of-the-art open models”. Google Developers Blog. [2]
  3. 3.0 3.1 3.2 “Google's open-source Gemma AI models draw from the research behind Gemini”. The Verge. [3]
  4. “Google launches two new open LLMs”. TechCrunch. [4]
  5. “Gemma 2: Improving Open Language Models at a Practical Size”. Google.
  6. 6.0 6.1 6.2 6.3 6.4 6.5 “Google unveils open source Gemma 3 model with 128k context window”. VentureBeat. [5]
  7. 7.0 7.1 7.2 7.3 “Gemma explained: An overview of Gemma model family architectures”. Google Developers Blog. [6]
  8. “Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis”. InfoQ. [7]
  9. “Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back”. Smithsonian Magazine. [8]