Chinchilla (modelo de lenguaje)

Chinchilla es un gran modelo de lenguaje (LLM) desarrollado por el equipo de investigación de DeepMind y presentado en marzo de 2022^[1]. El modelo contiene aproximadamente 70 mil millones de parámetros y fue entrenado con un corpus de texto de 1,4 billones de tokens.

La característica clave de Chinchilla es su enfoque computacionalmente óptimo para el entrenamiento. A diferencia de los modelos anteriores, donde el énfasis principal estaba en aumentar el número de parámetros, Chinchilla se creó basándose en la hipótesis de la necesidad de escalar proporcionalmente tanto el tamaño del modelo como el volumen de los datos de entrenamiento. Gracias a este enfoque, Chinchilla demostró superioridad sobre modelos significativamente más grandes, como Gopher (280 mil millones de parámetros) y GPT-3 (175 mil millones), en una amplia gama de tareas lingüísticas^[2].

Antecedentes e historia de su creación

El desarrollo de Chinchilla fue el resultado de una investigación sobre el escalado de LLM realizada en DeepMind, basada en la familia de modelos Gopher^[3]. El modelo Gopher, presentado en 2021, tenía 280 mil millones de parámetros, pero fue entrenado con un corpus comparativamente pequeño de 300 mil millones de tokens. En ese momento, la industria estaba dominada por el enfoque de que el rendimiento de los modelos aumentaba principalmente al incrementar su tamaño (número de parámetros), mientras que el volumen de datos permanecía relativamente constante.

Hipótesis sobre el entrenamiento computacionalmente óptimo

Los investigadores de DeepMind plantearon la hipótesis de que muchos modelos grandes, incluido Gopher, estaban subentrenados (undertrained) en relación con su tamaño. No alcanzaban la máxima calidad posible con un presupuesto computacional dado, ya que les faltaban datos para el entrenamiento^[2].

La esencia de la hipótesis era que, para un uso óptimo de los recursos computacionales, el tamaño del modelo y el volumen de los datos de entrenamiento debían aumentarse de manera proporcional entre sí. En otras palabras, al duplicar el número de parámetros del modelo, es necesario aproximadamente duplicar también el número de tokens de entrenamiento^[1]. Esta conclusión contradecía investigaciones anteriores que sobrevaloraban el aumento del tamaño del modelo, ya que se realizaban con un volumen de datos fijo.

Para probar esta hipótesis, el equipo de DeepMind realizó extensos experimentos, entrenando más de 400 modelos de diferentes tamaños con conjuntos de datos que iban de 5 a 500 mil millones de tokens. Los resultados confirmaron que el escalado paralelo es la estrategia óptima. Basándose en estas conclusiones, se desarrolló el modelo Chinchilla como una prueba práctica del nuevo paradigma^[4].

Arquitectura y entrenamiento

Características de la arquitectura

Chinchilla pertenece a la familia de los transformadores autorregresivos y su arquitectura es similar a la de los modelos GPT-2/GPT-3^[3]. Heredó muchas soluciones de Gopher, pero con diferencias clave orientadas a reducir el tamaño manteniendo la profundidad de la red:

Parámetros: ~70 mil millones de parámetros, distribuidos en 80 capas.
Ancho del modelo: El número de cabezales de autoatención se redujo a 64 (frente a los 128 de Gopher), y la dimensionalidad interna de las capas a 8192 (frente a los ~16384 de Gopher).
Optimizador: Se utiliza AdamW en lugar de Adam, lo que mejora la convergencia en grandes conjuntos de datos^[3].

Esta arquitectura permitió a Chinchilla mantener la misma profundidad de red que Gopher, pero con un número de parámetros significativamente menor, lo que redujo los requisitos de memoria y recursos computacionales.

Escalado y datos de entrenamiento

Para probar la hipótesis, Chinchilla fue entrenado con el mismo presupuesto computacional que Gopher, pero con una reasignación de recursos a favor de los datos. El modelo de 70 mil millones de parámetros fue entrenado con un corpus de 1,4 billones de tokens, aproximadamente 4 veces el volumen de datos utilizado para Gopher^[1].

Esta proporción, de aproximadamente 20 tokens por cada parámetro, se conoció como el Punto Chinchilla (Chinchilla Point) y sirve como referencia para el entrenamiento computacionalmente óptimo de los LLM modernos^[5]. El experimento confirmó que Chinchilla, al ser entrenado más cerca de este límite óptimo, pudo desarrollar su potencial más plenamente que los modelos subentrenados, aunque más grandes.

Resultados y rendimiento

En una amplia gama de pruebas estándar, Chinchilla demostró una superioridad significativa sobre los modelos anteriores. Superó con confianza no solo a Gopher, sino también a otros LLM de última generación de la época, incluidos OpenAI GPT-3 (175 mil millones de parámetros) y Megatron-Turing NLG (530 mil millones de parámetros)^[1].

El resultado más revelador fue en el benchmark integral MMLU (Measuring Massive Multitask Language Understanding), que evalúa el conocimiento y el razonamiento en cientos de tareas diversas. Chinchilla alcanzó una precisión promedio del 67,5%, lo que estableció un nuevo récord para modelos de su clase y superó el resultado de Gopher en 7 puntos porcentuales^[4].

Además de su alta eficacia, Chinchilla también demostró ser económico en su uso. El menor tamaño del modelo (70 mil millones frente a más de 175 mil millones en sus análogos) significa que se requieren significativamente menos recursos computacionales para la inferencia (inference) y el ajuste fino (fine-tuning), lo que simplifica su aplicación práctica.

Significado e impacto

La investigación sobre Chinchilla tuvo un impacto fundamental en los enfoques para entrenar grandes modelos de lenguaje.

Leyes de escalado de Chinchilla (Chinchilla scaling laws): La relación óptima identificada entre el tamaño del modelo y el volumen de datos se convirtió en un estándar de facto y una guía para desarrollos posteriores en la industria.
Cambio de enfoque del tamaño a los datos: El trabajo incentivó a la industria a prestar más atención a la creación, limpieza y expansión de los corpus de entrenamiento, en lugar de simplemente aumentar indiscriminadamente el número de parámetros.
Aplicación en sistemas multimodales: Chinchilla se utilizó como el componente de lenguaje principal en el modelo multimodal de DeepMind Flamingo, que es capaz de comprender imágenes y texto^[6].

Aunque el modelo Chinchilla no se ha hecho público, sus conceptos y resultados, publicados en el trabajo de investigación, cambiaron la trayectoria de desarrollo de todo el campo de los LLM, marcando el camino hacia un crecimiento más eficiente y equilibrado de las capacidades de la inteligencia artificial.

Literatura

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
↑ ^2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
↑ ^4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
↑ «Chinchilla (language model)». Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.

[legalgenie-5] «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.

[wiki_eng-6] «Chinchilla (language model)». Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (modelo de lenguaje)

Contents

Antecedentes e historia de su creación

Hipótesis sobre el entrenamiento computacionalmente óptimo

Arquitectura y entrenamiento

Características de la arquitectura

Escalado y datos de entrenamiento

Resultados y rendimiento

Significado e impacto

Literatura

Notas

Navigation menu

Chinchilla (modelo de lenguaje)

Antecedentes e historia de su creación

Hipótesis sobre el entrenamiento computacionalmente óptimo

Arquitectura y entrenamiento

Características de la arquitectura

Escalado y datos de entrenamiento

Resultados y rendimiento

Significado e impacto

Literatura

Notas

Navigation menu

Search