Chinchilla (modelo de linguagem)

Chinchilla é um grande modelo de linguagem (LLM) desenvolvido pelo grupo de pesquisa DeepMind e apresentado em março de 2022^[1]. O modelo contém cerca de 70 bilhões de parâmetros e foi treinado em um corpus de texto de 1,4 trilhão de tokens.

A característica principal do Chinchilla é sua abordagem de treinamento computacionalmente ótima. Diferente dos modelos anteriores, onde o foco principal era aumentar o número de parâmetros, o Chinchilla foi criado com base na hipótese da necessidade de escalar proporcionalmente tanto o tamanho do modelo quanto o volume dos dados de treinamento. Graças a essa abordagem, o Chinchilla demonstrou superioridade sobre modelos significativamente maiores, como o Gopher (280 bilhões de parâmetros) e o GPT-3 (175 bilhões), em uma ampla gama de tarefas de linguagem^[2].

Contexto e Histórico da Criação

O desenvolvimento do Chinchilla foi o resultado de pesquisas sobre o escalonamento de LLMs conduzidas na DeepMind, baseadas na família de modelos Gopher^[3]. O modelo Gopher, apresentado em 2021, tinha 280 bilhões de parâmetros, mas foi treinado em um corpus relativamente pequeno de 300 bilhões de tokens. Naquela época, a abordagem dominante na indústria era que o desempenho dos modelos aumentava principalmente com o aumento de seu tamanho (número de parâmetros), enquanto o volume de dados permanecia relativamente constante.

A Hipótese do Treinamento Computacionalmente Ótimo

Os pesquisadores da DeepMind levantaram a hipótese de que muitos modelos grandes, incluindo o Gopher, eram subtreinados (undertrained) em relação ao seu tamanho. Eles não atingiam a qualidade máxima possível para um determinado orçamento computacional porque lhes faltavam dados para o treinamento^[2].

A essência da hipótese era que, para o uso ótimo dos recursos computacionais, o tamanho do modelo e o volume dos dados de treinamento deveriam ser aumentados proporcionalmente um ao outro. Em outras palavras, ao dobrar o número de parâmetros do modelo, é necessário aproximadamente dobrar também o número de tokens de treinamento^[1]. Essa conclusão divergia de pesquisas anteriores, que superestimavam o valor de aumentar o tamanho do modelo, pois eram conduzidas com um volume fixo de dados.

Para testar essa hipótese, a equipe da DeepMind realizou extensos experimentos, treinando mais de 400 modelos de diferentes tamanhos em conjuntos de dados que variavam de 5 a 500 bilhões de tokens. Os resultados confirmaram que o escalonamento paralelo é a estratégia ótima. Com base nessas conclusões, o modelo Chinchilla foi desenvolvido como um teste prático do novo paradigma^[4].

Arquitetura e Treinamento

Características da Arquitetura

O Chinchilla pertence à família de transformadores autorregressivos e sua arquitetura é semelhante à dos modelos GPT-2/GPT-3^[3]. Ele herdou muitas soluções do Gopher, mas com diferenças cruciais destinadas a reduzir o tamanho enquanto mantém a profundidade da rede:

Parâmetros: ~70 bilhões de parâmetros, distribuídos em 80 camadas.
Largura do modelo: O número de cabeças de autoatenção foi reduzido para 64 (em comparação com 128 no Gopher), e a dimensão interna das camadas foi reduzida para 8192 (em comparação com ~16384 no Gopher).
Otimizador: Utiliza o AdamW em vez do Adam, o que melhora a convergência em grandes conjuntos de dados^[3].

Essa arquitetura permitiu que o Chinchilla mantivesse a mesma profundidade de rede que o Gopher, mas com um número significativamente menor de parâmetros, o que reduziu os requisitos de memória e recursos computacionais.

Escalonamento e Dados de Treinamento

Para testar a hipótese, o Chinchilla foi treinado com o mesmo orçamento computacional do Gopher, mas com uma realocação de recursos em favor dos dados. O modelo de 70 bilhões de parâmetros foi treinado em um corpus de 1,4 trilhão de tokens, o que é aproximadamente 4 vezes o volume de dados usado para o Gopher^[1].

Essa proporção, de aproximadamente 20 tokens para cada parâmetro, ficou conhecida como o ponto Chinchilla (Chinchilla Point) e serve como referência para o treinamento computacionalmente ótimo de LLMs modernos^[5]. O experimento confirmou que o Chinchilla, ao ser treinado mais perto desse limite ótimo, conseguiu realizar seu potencial de forma mais completa do que modelos subtreinados, embora maiores.

Resultados e Desempenho

Em um amplo conjunto de testes padrão, o Chinchilla demonstrou uma superioridade significativa sobre os modelos anteriores. Ele superou com folga não apenas o Gopher, mas também outros LLMs de ponta da época, incluindo o GPT-3 da OpenAI (175 bilhões de parâmetros) e o Megatron-Turing NLG (530 bilhões de parâmetros)^[1].

O resultado mais notável foi no benchmark abrangente MMLU (Measuring Massive Multitask Language Understanding), que avalia o conhecimento e o raciocínio em centenas de tarefas heterogêneas. O Chinchilla alcançou uma precisão média de 67,5%, estabelecendo um novo recorde para modelos dessa classe e superando o resultado do Gopher em 7 pontos percentuais^[4].

Além da alta eficiência, o Chinchilla também demonstrou ser econômico em seu uso. O tamanho menor do modelo (70 bilhões em comparação com mais de 175 bilhões de seus análogos) significa que são necessários significativamente menos recursos computacionais para inferência (inference) e ajuste fino (fine-tuning), o que simplifica sua aplicação prática.

Significado e Impacto

A pesquisa sobre o Chinchilla teve um impacto fundamental nas abordagens de treinamento de grandes modelos de linguagem.

Leis de escalonamento de Chinchilla (Chinchilla scaling laws): A proporção ótima identificada entre o tamanho do modelo e o volume de dados tornou-se um padrão de fato e uma referência para desenvolvimentos posteriores na indústria.
Mudança do foco do tamanho para os dados: O trabalho incentivou a indústria a dedicar mais atenção à criação, limpeza e expansão de corpus de treinamento, em vez de apenas aumentar indiscriminadamente o número de parâmetros.
Aplicação em sistemas multimodais: O Chinchilla foi usado como o componente de linguagem principal no modelo multimodal da DeepMind, o Flamingo, que é capaz de compreender imagens e texto^[6].

Embora o modelo Chinchilla em si não tenha sido lançado para o público, seus conceitos e resultados, publicados no artigo científico, mudaram a trajetória de desenvolvimento de todo o campo de LLMs, indicando um caminho para um crescimento mais eficiente e equilibrado das capacidades da inteligência artificial.

Literatura

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
↑ ^2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
↑ ^4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
↑ «Chinchilla (language model)». Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.

[legalgenie-5] «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.

[wiki_eng-6] «Chinchilla (language model)». Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (modelo de linguagem)

Contents

Contexto e Histórico da Criação

A Hipótese do Treinamento Computacionalmente Ótimo

Arquitetura e Treinamento

Características da Arquitetura

Escalonamento e Dados de Treinamento

Resultados e Desempenho

Significado e Impacto

Literatura

Notas

Navigation menu

Chinchilla (modelo de linguagem)

Contexto e Histórico da Criação

A Hipótese do Treinamento Computacionalmente Ótimo

Arquitetura e Treinamento

Características da Arquitetura

Escalonamento e Dados de Treinamento

Resultados e Desempenho

Significado e Impacto

Literatura

Notas

Navigation menu

Search