Gemma (Google) (PT)
Gemma é uma família de modelos de linguagem de acesso livre, desenvolvidos e lançados pela Google (divisão Google DeepMind). Os modelos Gemma são baseados na mesma pesquisa e tecnologia da família principal Gemini e são posicionados como suas versões leves e de alto desempenho[1]. O nome vem da palavra latina gemma, que significa "pedra preciosa"[2].
Gemma pertence à categoria de open models (modelos abertos): a Google publica os pesos dos modelos, permitindo que pesquisadores e desenvolvedores os utilizem, re-treinem e distribuam livremente, inclusive em projetos comerciais, desde que cumpram as condições de uso responsável[2]. Essa é uma diferença fundamental em relação aos modelos Gemini, cujo acesso é possível apenas por meio de APIs na nuvem. Os modelos Gemma podem ser executados localmente em hardware de consumo (laptops, desktops com GPU), e não apenas em data centers[3].
Desenvolvimento e lançamentos
A família Gemma inclui várias gerações de modelos, cada uma trazendo melhorias na arquitetura, desempenho e capacidades.
Primeira geração: Gemma 1
A primeira versão do Gemma foi lançada em 21 de fevereiro de 2024[4]. Ela incluía dois modelos de texto baseados na arquitetura de transformer somente decodificador:
- Gemma 2B (2 bilhões de parâmetros)
- Gemma 7B (7 bilhões de parâmetros)
Na época do lançamento, a Google afirmou que esses modelos superavam análogos significativamente maiores nos principais benchmarks[2]. Os modelos originais eram predominantemente em inglês, mas foram treinados em uma variedade de dados, incluindo documentos da web, código de programação e problemas matemáticos[1]. Ambos os modelos foram lançados em duas variantes: uma base (pre-trained) e uma ajustada por instruções (instruction-tuned) para seguir melhor os comandos do usuário[2].
Segunda geração: Gemma 2
O Gemma 2 foi anunciado em 27 de junho de 2024 e trouxe melhorias significativas[1].
- Tamanhos dos modelos: Foram lançados modelos com 9 e 27 bilhões de parâmetros. As variantes menores foram treinadas usando a técnica de destilação de conhecimento de um modelo maior para melhorar a qualidade[5].
- Janela de contexto: Foi significativamente expandida para 80.000 tokens (em comparação com 8.192 na primeira versão)[6][7].
- Melhorias arquitetônicas: Foram introduzidos mecanismos de grouped-query attention e um esquema alternado de atenção local e global para um trabalho eficiente com contextos longos[1].
Terceira geração: Gemma 3
O Gemma 3 foi apresentado em março de 2025 como o próximo passo no desenvolvimento da família, com foco em multimodalidade e uma cobertura ampliada de tarefas[6].
- Multimodalidade: Os modelos passaram a suportar imagens e vídeos como dados de entrada, juntamente com texto.
- Tamanhos e idiomas: A linha de modelos abrange quatro tamanhos (1B, 4B, 12B, 27B) e suporta até 140 idiomas[6].
- Janela de contexto: Aumentada para 128.000 tokens[6].
Segundo a Google, o Gemma 3 27B demonstrou resultados no nível dos melhores modelos abertos de sua época, sendo superado nos rankings apenas por modelos especializados como o DeepSeek-R1[6].
Arquitetura e características técnicas
Os modelos Gemma são baseados na arquitetura transformer na configuração "somente decodificador" (decoder-only), semelhante aos modelos GPT[7]. Isso significa que o modelo gera texto de forma autorregressiva, prevendo o próximo token com base em todos os anteriores. As principais soluções técnicas incluem:
- Embeddings de posição rotacionais (RoPE): Em vez de embeddings de posição absolutos, são usados os RoPE, que permitem codificar eficientemente a informação posicional.
- Multi-query e Grouped-query attention: Para aceleração e economia de memória em modelos menores (como o Gemma 2B), é utilizada a multi-query attention (uma única chave/valor para todas as cabeças de atenção). No Gemma 2, foi implementado o mecanismo de grouped-query attention, onde as consultas são divididas em grupos, o que representa um compromisso entre velocidade e qualidade[1][7].
- Esquema de atenção alternado: No Gemma 2, foi implementado um esquema onde camadas com auto-atenção global se alternam com camadas de "janela deslizante" limitada, permitindo o processamento eficiente de contextos longos[1].
Família de modelos e variantes
Além dos modelos básicos universais, a Google lançou várias versões derivadas do Gemma, otimizadas para tarefas específicas.
- CodeGemma: Um modelo para geração e completação de código de programação, compatível com C++, C#, Go, Java, JavaScript, Python, Rust e outras linguagens[1].
- DataGemma: Uma família de modelos re-treinados para integração com dados externos usando técnicas de RAG. O modelo é capaz de realizar consultas a bancos de dados (por exemplo, Google Data Commons) para aumentar a precisão factual das respostas[1].
- PaliGemma: Um modelo multimodal capaz de receber imagens e texto como entrada. Ele é projetado para tarefas de interação visual de perguntas e respostas, como descrição de imagens e reconhecimento de objetos[1].
- RecurrentGemma: Uma variante experimental com uma arquitetura híbrida Griffin, que combina atenção local e conexões recorrentes lineares. Isso permite acelerar significativamente a geração de sequências longas[7].
- MedGemma: Uma versão especializada do Gemma 3 para a área médica. Inclui modelos multimodais (4B) e de texto (27B) para análise de imagens médicas (radiografias, tomografias) e documentos clínicos. Os modelos são distribuídos como abertos, mas não se destinam ao uso clínico direto sem validação adicional[8].
- DolphinGemma: Um projeto de pesquisa para aplicar as tecnologias Gemma na decodificação da comunicação de golfinhos. O modelo foi treinado com gravações de áudio de vários anos e é usado para identificar padrões na linguagem animal[9].
Disponibilidade e aplicação
Os modelos Gemma estão disponíveis nas plataformas Kaggle e Hugging Face, além de estarem integrados aos serviços Google Colab e Vertex AI Model Garden[2]. Para acelerar a inferência, a Google, em colaboração com a NVIDIA, adaptou os modelos para o TensorRT. Os termos de licenciamento do Gemma permitem o uso comercial e a modificação dos modelos, o que os diferencia de alguns outros projetos abertos. A distribuição é regulada pela licença Responsible AI License, que impõe restrições ao uso em certas áreas (por exemplo, desenvolvimento de armas) e exige que os produtos derivados cumpram os princípios de aplicação segura e ética da IA[3].
Segurança e responsabilidade
Os desenvolvedores dedicaram grande atenção às questões de segurança, considerando a natureza aberta dos modelos.
- Filtragem de dados: Durante a preparação dos conjuntos de dados de treinamento, dados pessoais e outras informações sensíveis foram filtrados automaticamente para reduzir o risco de vazamentos[2].
- Alinhamento (Alignment): As versões instrucionais dos modelos passaram por um alinhamento multifásico usando as técnicas de Supervised Fine-Tuning (SFT) e RLHF (aprendizagem por reforço com feedback humano) para consolidar estilos de resposta preferenciais[1].
- Red Teaming: Antes do lançamento, os modelos foram submetidos a testes aprofundados de resistência a solicitações maliciosas. Especialistas tentaram provocar a geração de conteúdo perigoso ou indesejado para identificar vulnerabilidades[3].
- Kit de ferramentas de IA Responsável (Responsible AI Toolkit): Juntamente com os modelos, a Google lançou um conjunto de ferramentas para facilitar a implementação segura, incluindo o utilitário Gemma Debugger para analisar os estados internos do modelo e classificadores de conteúdo indesejado[2].
- ShieldGemma: Um modelo de filtro especializado, projetado para prevenir a geração de conteúdo inseguro nas versões multimodais do Gemma[6].
Links
Literatura
- Mesnard, T. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295.
- Rivière, M. et al. (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118.
- Kamath, A. et al. (2025). Gemma 3 Technical Report. arXiv:2503.19786.
- Zhao, H. et al. (2024). CodeGemma: Open Code Models Based on Gemma. arXiv:2406.11409.
- Beyer, L. et al. (2024). PaliGemma: A Versatile 3B VLM for Transfer. arXiv:2407.07726.
- Steiner, A. et al. (2024). PaliGemma 2: A Family of Versatile VLMs for Transfer. arXiv:2412.03555.
- Botev, A. et al. (2024). RecurrentGemma: Moving Past Transformers for Efficient Open Language Models. arXiv:2404.07839.
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Chinnakonduru, S. S. & Mohapatra, A. (2024). Weighted Grouped Query Attention in Transformers. arXiv:2407.10855.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Radhakrishnan, P. et al. (2024). Knowing When to Ask — Bridging Large Language Models and Data. arXiv:2409.13741.
Notas
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 “What Is Google Gemma?”. IBM. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 “Gemma: Google introduces new state-of-the-art open models”. Google Developers Blog. [2]
- ↑ 3.0 3.1 3.2 “Google's open-source Gemma AI models draw from the research behind Gemini”. The Verge. [3]
- ↑ “Google launches two new open LLMs”. TechCrunch. [4]
- ↑ “Gemma 2: Improving Open Language Models at a Practical Size”. Google.
- ↑ 6.0 6.1 6.2 6.3 6.4 6.5 “Google unveils open source Gemma 3 model with 128k context window”. VentureBeat. [5]
- ↑ 7.0 7.1 7.2 7.3 “Gemma explained: An overview of Gemma model family architectures”. Google Developers Blog. [6]
- ↑ “Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis”. InfoQ. [7]
- ↑ “Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back”. Smithsonian Magazine. [8]