Chinchilla (modelo de linguagem)
Chinchilla é um grande modelo de linguagem (LLM) desenvolvido pelo grupo de pesquisa DeepMind e apresentado em março de 2022[1]. O modelo contém cerca de 70 bilhões de parâmetros e foi treinado em um corpus de texto de 1,4 trilhão de tokens.
A característica principal do Chinchilla é sua abordagem de treinamento computacionalmente ótima. Diferente dos modelos anteriores, onde o foco principal era aumentar o número de parâmetros, o Chinchilla foi criado com base na hipótese da necessidade de escalar proporcionalmente tanto o tamanho do modelo quanto o volume dos dados de treinamento. Graças a essa abordagem, o Chinchilla demonstrou superioridade sobre modelos significativamente maiores, como o Gopher (280 bilhões de parâmetros) e o GPT-3 (175 bilhões), em uma ampla gama de tarefas de linguagem[2].
Contexto e Histórico da Criação
O desenvolvimento do Chinchilla foi o resultado de pesquisas sobre o escalonamento de LLMs conduzidas na DeepMind, baseadas na família de modelos Gopher[3]. O modelo Gopher, apresentado em 2021, tinha 280 bilhões de parâmetros, mas foi treinado em um corpus relativamente pequeno de 300 bilhões de tokens. Naquela época, a abordagem dominante na indústria era que o desempenho dos modelos aumentava principalmente com o aumento de seu tamanho (número de parâmetros), enquanto o volume de dados permanecia relativamente constante.
A Hipótese do Treinamento Computacionalmente Ótimo
Os pesquisadores da DeepMind levantaram a hipótese de que muitos modelos grandes, incluindo o Gopher, eram subtreinados (undertrained) em relação ao seu tamanho. Eles não atingiam a qualidade máxima possível para um determinado orçamento computacional porque lhes faltavam dados para o treinamento[2].
A essência da hipótese era que, para o uso ótimo dos recursos computacionais, o tamanho do modelo e o volume dos dados de treinamento deveriam ser aumentados proporcionalmente um ao outro. Em outras palavras, ao dobrar o número de parâmetros do modelo, é necessário aproximadamente dobrar também o número de tokens de treinamento[1]. Essa conclusão divergia de pesquisas anteriores, que superestimavam o valor de aumentar o tamanho do modelo, pois eram conduzidas com um volume fixo de dados.
Para testar essa hipótese, a equipe da DeepMind realizou extensos experimentos, treinando mais de 400 modelos de diferentes tamanhos em conjuntos de dados que variavam de 5 a 500 bilhões de tokens. Os resultados confirmaram que o escalonamento paralelo é a estratégia ótima. Com base nessas conclusões, o modelo Chinchilla foi desenvolvido como um teste prático do novo paradigma[4].
Arquitetura e Treinamento
Características da Arquitetura
O Chinchilla pertence à família de transformadores autorregressivos e sua arquitetura é semelhante à dos modelos GPT-2/GPT-3[3]. Ele herdou muitas soluções do Gopher, mas com diferenças cruciais destinadas a reduzir o tamanho enquanto mantém a profundidade da rede:
- Parâmetros: ~70 bilhões de parâmetros, distribuídos em 80 camadas.
- Largura do modelo: O número de cabeças de autoatenção foi reduzido para 64 (em comparação com 128 no Gopher), e a dimensão interna das camadas foi reduzida para 8192 (em comparação com ~16384 no Gopher).
- Otimizador: Utiliza o AdamW em vez do Adam, o que melhora a convergência em grandes conjuntos de dados[3].
Essa arquitetura permitiu que o Chinchilla mantivesse a mesma profundidade de rede que o Gopher, mas com um número significativamente menor de parâmetros, o que reduziu os requisitos de memória e recursos computacionais.
Escalonamento e Dados de Treinamento
Para testar a hipótese, o Chinchilla foi treinado com o mesmo orçamento computacional do Gopher, mas com uma realocação de recursos em favor dos dados. O modelo de 70 bilhões de parâmetros foi treinado em um corpus de 1,4 trilhão de tokens, o que é aproximadamente 4 vezes o volume de dados usado para o Gopher[1].
Essa proporção, de aproximadamente 20 tokens para cada parâmetro, ficou conhecida como o ponto Chinchilla (Chinchilla Point) e serve como referência para o treinamento computacionalmente ótimo de LLMs modernos[5]. O experimento confirmou que o Chinchilla, ao ser treinado mais perto desse limite ótimo, conseguiu realizar seu potencial de forma mais completa do que modelos subtreinados, embora maiores.
Resultados e Desempenho
Em um amplo conjunto de testes padrão, o Chinchilla demonstrou uma superioridade significativa sobre os modelos anteriores. Ele superou com folga não apenas o Gopher, mas também outros LLMs de ponta da época, incluindo o GPT-3 da OpenAI (175 bilhões de parâmetros) e o Megatron-Turing NLG (530 bilhões de parâmetros)[1].
O resultado mais notável foi no benchmark abrangente MMLU (Measuring Massive Multitask Language Understanding), que avalia o conhecimento e o raciocínio em centenas de tarefas heterogêneas. O Chinchilla alcançou uma precisão média de 67,5%, estabelecendo um novo recorde para modelos dessa classe e superando o resultado do Gopher em 7 pontos percentuais[4].
Além da alta eficiência, o Chinchilla também demonstrou ser econômico em seu uso. O tamanho menor do modelo (70 bilhões em comparação com mais de 175 bilhões de seus análogos) significa que são necessários significativamente menos recursos computacionais para inferência (inference) e ajuste fino (fine-tuning), o que simplifica sua aplicação prática.
Significado e Impacto
A pesquisa sobre o Chinchilla teve um impacto fundamental nas abordagens de treinamento de grandes modelos de linguagem.
- Leis de escalonamento de Chinchilla (Chinchilla scaling laws): A proporção ótima identificada entre o tamanho do modelo e o volume de dados tornou-se um padrão de fato e uma referência para desenvolvimentos posteriores na indústria.
- Mudança do foco do tamanho para os dados: O trabalho incentivou a indústria a dedicar mais atenção à criação, limpeza e expansão de corpus de treinamento, em vez de apenas aumentar indiscriminadamente o número de parâmetros.
- Aplicação em sistemas multimodais: O Chinchilla foi usado como o componente de linguagem principal no modelo multimodal da DeepMind, o Flamingo, que é capaz de compreender imagens e texto[6].
Embora o modelo Chinchilla em si não tenha sido lançado para o público, seus conceitos e resultados, publicados no artigo científico, mudaram a trajetória de desenvolvimento de todo o campo de LLMs, indicando um caminho para um crescimento mais eficiente e equilibrado das capacidades da inteligência artificial.
Literatura
- Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
- Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
- Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
- Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
- Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
- Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
- Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
- Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
Notas
- ↑ 1.0 1.1 1.2 1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
- ↑ 2.0 2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
- ↑ 3.0 3.1 3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
- ↑ 4.0 4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
- ↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
- ↑ «Chinchilla (language model)». Wikipedia.