Gemma (Google) (PT)

Gemma é uma família de modelos de linguagem de acesso livre, desenvolvidos e lançados pela Google (divisão Google DeepMind). Os modelos Gemma são baseados na mesma pesquisa e tecnologia da família principal Gemini e são posicionados como suas versões leves e de alto desempenho^[1]. O nome vem da palavra latina gemma, que significa "pedra preciosa"^[2].

Gemma pertence à categoria de open models (modelos abertos): a Google publica os pesos dos modelos, permitindo que pesquisadores e desenvolvedores os utilizem, re-treinem e distribuam livremente, inclusive em projetos comerciais, desde que cumpram as condições de uso responsável^[2]. Essa é uma diferença fundamental em relação aos modelos Gemini, cujo acesso é possível apenas por meio de APIs na nuvem. Os modelos Gemma podem ser executados localmente em hardware de consumo (laptops, desktops com GPU), e não apenas em data centers^[3].

Desenvolvimento e lançamentos

A família Gemma inclui várias gerações de modelos, cada uma trazendo melhorias na arquitetura, desempenho e capacidades.

Primeira geração: Gemma 1

A primeira versão do Gemma foi lançada em 21 de fevereiro de 2024^[4]. Ela incluía dois modelos de texto baseados na arquitetura de transformer somente decodificador:

Gemma 2B (2 bilhões de parâmetros)
Gemma 7B (7 bilhões de parâmetros)

Na época do lançamento, a Google afirmou que esses modelos superavam análogos significativamente maiores nos principais benchmarks^[2]. Os modelos originais eram predominantemente em inglês, mas foram treinados em uma variedade de dados, incluindo documentos da web, código de programação e problemas matemáticos^[1]. Ambos os modelos foram lançados em duas variantes: uma base (pre-trained) e uma ajustada por instruções (instruction-tuned) para seguir melhor os comandos do usuário^[2].

Segunda geração: Gemma 2

O Gemma 2 foi anunciado em 27 de junho de 2024 e trouxe melhorias significativas^[1].

Tamanhos dos modelos: Foram lançados modelos com 9 e 27 bilhões de parâmetros. As variantes menores foram treinadas usando a técnica de destilação de conhecimento de um modelo maior para melhorar a qualidade^[5].
Janela de contexto: Foi significativamente expandida para 80.000 tokens (em comparação com 8.192 na primeira versão)^[6]^[7].
Melhorias arquitetônicas: Foram introduzidos mecanismos de grouped-query attention e um esquema alternado de atenção local e global para um trabalho eficiente com contextos longos^[1].

Terceira geração: Gemma 3

O Gemma 3 foi apresentado em março de 2025 como o próximo passo no desenvolvimento da família, com foco em multimodalidade e uma cobertura ampliada de tarefas^[6].

Multimodalidade: Os modelos passaram a suportar imagens e vídeos como dados de entrada, juntamente com texto.
Tamanhos e idiomas: A linha de modelos abrange quatro tamanhos (1B, 4B, 12B, 27B) e suporta até 140 idiomas^[6].
Janela de contexto: Aumentada para 128.000 tokens^[6].

Segundo a Google, o Gemma 3 27B demonstrou resultados no nível dos melhores modelos abertos de sua época, sendo superado nos rankings apenas por modelos especializados como o DeepSeek-R1^[6].

Arquitetura e características técnicas

Os modelos Gemma são baseados na arquitetura transformer na configuração "somente decodificador" (decoder-only), semelhante aos modelos GPT^[7]. Isso significa que o modelo gera texto de forma autorregressiva, prevendo o próximo token com base em todos os anteriores. As principais soluções técnicas incluem:

Embeddings de posição rotacionais (RoPE): Em vez de embeddings de posição absolutos, são usados os RoPE, que permitem codificar eficientemente a informação posicional.
Multi-query e Grouped-query attention: Para aceleração e economia de memória em modelos menores (como o Gemma 2B), é utilizada a multi-query attention (uma única chave/valor para todas as cabeças de atenção). No Gemma 2, foi implementado o mecanismo de grouped-query attention, onde as consultas são divididas em grupos, o que representa um compromisso entre velocidade e qualidade^[1]^[7].
Esquema de atenção alternado: No Gemma 2, foi implementado um esquema onde camadas com auto-atenção global se alternam com camadas de "janela deslizante" limitada, permitindo o processamento eficiente de contextos longos^[1].

Família de modelos e variantes

Além dos modelos básicos universais, a Google lançou várias versões derivadas do Gemma, otimizadas para tarefas específicas.

CodeGemma: Um modelo para geração e completação de código de programação, compatível com C++, C#, Go, Java, JavaScript, Python, Rust e outras linguagens^[1].
DataGemma: Uma família de modelos re-treinados para integração com dados externos usando técnicas de RAG. O modelo é capaz de realizar consultas a bancos de dados (por exemplo, Google Data Commons) para aumentar a precisão factual das respostas^[1].
PaliGemma: Um modelo multimodal capaz de receber imagens e texto como entrada. Ele é projetado para tarefas de interação visual de perguntas e respostas, como descrição de imagens e reconhecimento de objetos^[1].
RecurrentGemma: Uma variante experimental com uma arquitetura híbrida Griffin, que combina atenção local e conexões recorrentes lineares. Isso permite acelerar significativamente a geração de sequências longas^[7].
MedGemma: Uma versão especializada do Gemma 3 para a área médica. Inclui modelos multimodais (4B) e de texto (27B) para análise de imagens médicas (radiografias, tomografias) e documentos clínicos. Os modelos são distribuídos como abertos, mas não se destinam ao uso clínico direto sem validação adicional^[8].
DolphinGemma: Um projeto de pesquisa para aplicar as tecnologias Gemma na decodificação da comunicação de golfinhos. O modelo foi treinado com gravações de áudio de vários anos e é usado para identificar padrões na linguagem animal^[9].

Disponibilidade e aplicação

Os modelos Gemma estão disponíveis nas plataformas Kaggle e Hugging Face, além de estarem integrados aos serviços Google Colab e Vertex AI Model Garden^[2]. Para acelerar a inferência, a Google, em colaboração com a NVIDIA, adaptou os modelos para o TensorRT. Os termos de licenciamento do Gemma permitem o uso comercial e a modificação dos modelos, o que os diferencia de alguns outros projetos abertos. A distribuição é regulada pela licença Responsible AI License, que impõe restrições ao uso em certas áreas (por exemplo, desenvolvimento de armas) e exige que os produtos derivados cumpram os princípios de aplicação segura e ética da IA^[3].

Segurança e responsabilidade

Os desenvolvedores dedicaram grande atenção às questões de segurança, considerando a natureza aberta dos modelos.

Filtragem de dados: Durante a preparação dos conjuntos de dados de treinamento, dados pessoais e outras informações sensíveis foram filtrados automaticamente para reduzir o risco de vazamentos^[2].
Alinhamento (Alignment): As versões instrucionais dos modelos passaram por um alinhamento multifásico usando as técnicas de Supervised Fine-Tuning (SFT) e RLHF (aprendizagem por reforço com feedback humano) para consolidar estilos de resposta preferenciais^[1].
Red Teaming: Antes do lançamento, os modelos foram submetidos a testes aprofundados de resistência a solicitações maliciosas. Especialistas tentaram provocar a geração de conteúdo perigoso ou indesejado para identificar vulnerabilidades^[3].
Kit de ferramentas de IA Responsável (Responsible AI Toolkit): Juntamente com os modelos, a Google lançou um conjunto de ferramentas para facilitar a implementação segura, incluindo o utilitário Gemma Debugger para analisar os estados internos do modelo e classificadores de conteúdo indesejado^[2].
ShieldGemma: Um modelo de filtro especializado, projetado para prevenir a geração de conteúdo inseguro nas versões multimodais do Gemma^[6].

Links

Literatura

Mesnard, T. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295.
Rivière, M. et al. (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118.
Kamath, A. et al. (2025). Gemma 3 Technical Report. arXiv:2503.19786.
Zhao, H. et al. (2024). CodeGemma: Open Code Models Based on Gemma. arXiv:2406.11409.
Beyer, L. et al. (2024). PaliGemma: A Versatile 3B VLM for Transfer. arXiv:2407.07726.
Steiner, A. et al. (2024). PaliGemma 2: A Family of Versatile VLMs for Transfer. arXiv:2412.03555.
Botev, A. et al. (2024). RecurrentGemma: Moving Past Transformers for Efficient Open Language Models. arXiv:2404.07839.
Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
Chinnakonduru, S. S. & Mohapatra, A. (2024). Weighted Grouped Query Attention in Transformers. arXiv:2407.10855.
Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Radhakrishnan, P. et al. (2024). Knowing When to Ask — Bridging Large Language Models and Data. arXiv:2409.13741.

Notas

↑ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 “What Is Google Gemma?”. IBM. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 ^2.6 “Gemma: Google introduces new state-of-the-art open models”. Google Developers Blog. [2]
↑ ^3.0 ^3.1 ^3.2 “Google's open-source Gemma AI models draw from the research behind Gemini”. The Verge. [3]
↑ “Google launches two new open LLMs”. TechCrunch. [4]
↑ “Gemma 2: Improving Open Language Models at a Practical Size”. Google.
↑ ^6.0 ^6.1 ^6.2 ^6.3 ^6.4 ^6.5 “Google unveils open source Gemma 3 model with 128k context window”. VentureBeat. [5]
↑ ^7.0 ^7.1 ^7.2 ^7.3 “Gemma explained: An overview of Gemma model family architectures”. Google Developers Blog. [6]
↑ “Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis”. InfoQ. [7]
↑ “Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back”. Smithsonian Magazine. [8]

[ibm-what-is-gemma-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 “What Is Google Gemma?”. IBM. [1]

[google-blog-intro-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 ^2.6 “Gemma: Google introduces new state-of-the-art open models”. Google Developers Blog. [2]

[verge-gemma-gemini-3] 3.0 ^3.1 ^3.2 “Google's open-source Gemma AI models draw from the research behind Gemini”. The Verge. [3]

[techcrunch-launch-4] “Google launches two new open LLMs”. TechCrunch. [4]

[gemma2-report-5] “Gemma 2: Improving Open Language Models at a Practical Size”. Google.

[venturebeat-gemma3-6] 6.0 ^6.1 ^6.2 ^6.3 ^6.4 ^6.5 “Google unveils open source Gemma 3 model with 128k context window”. VentureBeat. [5]

[gemma-arch-overview-7] 7.0 ^7.1 ^7.2 ^7.3 “Gemma explained: An overview of Gemma model family architectures”. Google Developers Blog. [6]

[infoq-medgemma-8] “Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis”. InfoQ. [7]

[smithsonian-dolphin-9] “Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back”. Smithsonian Magazine. [8]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Gemma (Google) (PT)

Contents

Desenvolvimento e lançamentos

Primeira geração: Gemma 1

Segunda geração: Gemma 2

Terceira geração: Gemma 3

Arquitetura e características técnicas

Família de modelos e variantes

Disponibilidade e aplicação

Segurança e responsabilidade

Links

Literatura

Notas

Navigation menu

Gemma (Google) (PT)

Desenvolvimento e lançamentos

Primeira geração: Gemma 1

Segunda geração: Gemma 2

Terceira geração: Gemma 3

Arquitetura e características técnicas

Família de modelos e variantes

Disponibilidade e aplicação

Segurança e responsabilidade

Links

Literatura

Notas

Navigation menu

Search