T5 (Text-to-Text Transfer Transformer) (ES)
T5 (Text-to-Text Transfer Transformer) es una familia de grandes modelos de lenguaje desarrollada por investigadores de Google AI y presentada en 2019[1]. La innovación clave de T5 es su marco unificado «text-to-text» (texto a texto), que aborda cualquier tarea de procesamiento de lenguaje natural (PLN) como un problema de transformar una secuencia de texto en otra. Esto permitió utilizar un único modelo, función de pérdida y procedimiento de entrenamiento para una amplia gama de tareas, como traducción, resumen, respuesta a preguntas y clasificación[2].
El modelo se basa en la arquitectura estándar de transformador «encoder-decoder», lo que lo diferencia de modelos como BERT (solo encoder) y GPT (solo decoder). El trabajo en T5 fue concebido como un estudio empírico a gran escala para explorar y comparar sistemáticamente diversas técnicas de aprendizaje por transferencia en PLN, en lugar de crear un método fundamentalmente nuevo[1].
El paradigma «Text-to-Text»
La idea central de T5 es que todas las tareas se formulan en un formato unificado. El modelo recibe texto como entrada y genera texto como salida. Para que el modelo pueda distinguir entre las tareas que se le asignan, se añade un prefijo de instrucción de texto especial a la secuencia de entrada[2].
- Traducción: `translate English to German: That is good.` → `Das ist gut.`
- Clasificación de sentimiento: `sst2 sentence: a very exciting film.` → `positivo`
- Resumen: `summarize: [texto largo de un artículo]` → `[resumen corto]`
Este enfoque simplifica radicalmente el proceso de aplicación del modelo, eliminando la necesidad de desarrollar «cabezas» específicas para cada tarea (task-specific heads), lo cual era característico de arquitecturas como BERT[3].
Arquitectura y escalado
Arquitectura encoder-decoder
T5 utiliza la arquitectura estándar de un transformador, compuesta por dos partes[1]:
- Encoder: Procesa toda la secuencia de entrada simultáneamente, creando una representación contextualizada rica. Al igual que en BERT, el encoder de T5 es bidireccional.
- Decoder: Genera el texto de salida token por token (de manera autorregresiva), utilizando la representación obtenida del encoder.
Esta estructura híbrida permite a T5 resolver eficazmente tanto tareas de comprensión del lenguaje como tareas de generación de texto[4].
Mejoras clave
La arquitectura T5 incluye varias modificaciones en comparación con el modelo de transformador original:
- Embeddings posicionales relativos: En lugar de los embeddings sinusoidales absolutos, T5 utiliza una forma simplificada pero eficaz de codificación posicional relativa, donde se añade un sesgo escalar (bias) aprendible a los logits de atención, que depende únicamente de la distancia relativa entre los tokens[1].
- Normalización de capa (Layer Norm) modificada: La normalización se ha movido fuera de la conexión residual (residual connection), y se ha eliminado el sesgo aditivo (bias) para mejorar la estabilidad del entrenamiento.
Escalas del modelo
En el trabajo original, el modelo se presentó en varias configuraciones que diferían en el número de parámetros, lo que permitió estudiar sistemáticamente el impacto de la escala[5]:
- T5-Small: ~60 millones de parámetros
- T5-Base: ~220 millones de parámetros
- T5-Large: ~770 millones de parámetros
- T5-3B: ~3 mil millones de parámetros
- T5-11B: ~11 mil millones de parámetros
El estudio demostró que aumentar la escala del modelo es una de las formas más fiables de mejorar su rendimiento[1].
Preentrenamiento: dataset C4 y la tarea de Span Corruption
Tarea de Span Corruption
Para el preentrenamiento de T5, se eligió una tarea de eliminación de ruido (denoising), específicamente una variante llamada corrupción de fragmentos (span corruption)[6]. El método funciona de la siguiente manera:
- En el texto de entrada, se enmascara aleatoriamente el 15% de los tokens.
- A diferencia del método MLM en BERT, donde se enmascaran tokens individuales, en T5 se enmascaran fragmentos continuos completos (spans).
- Cada fragmento dañado se reemplaza por un único token de máscara (por ejemplo, `<X>`, `<Y>`).
- Se entrena al modelo para generar en la salida la secuencia de los fragmentos eliminados, separados por las máscaras correspondientes.
Este enfoque obliga al modelo a predecir secuencias enteras de texto, lo que resultó ser una tarea de preentrenamiento más eficaz que el simple modelado del lenguaje[1].
Dataset C4 (Colossal Clean Crawled Corpus)
Para aprovechar el potencial del aprendizaje por transferencia, los investigadores crearon un conjunto de datos de texto enorme y cuidadosamente limpiado llamado C4, con un tamaño de aproximadamente 750 GB[2]. Se obtuvo mediante la limpieza y filtrado a gran escala del corpus web de acceso público Common Crawl[7]. El proceso de limpieza incluyó la eliminación de duplicados, texto de plantilla ("Lorem ipsum"), oraciones incompletas y el filtrado de lenguaje ofensivo[8].
Críticas al dataset C4
A pesar del objetivo declarado de crear un corpus «limpio», el proceso de filtrado de C4 fue criticado por sus sesgos sistémicos. Las investigaciones demostraron que el filtro de lenguaje ofensivo eliminaba de manera desproporcionada textos relacionados con las comunidades LGBTQ+, así como textos en inglés vernáculo afroamericano (AAE)[8]. Además, se encontró una cantidad significativa de contenido ofensivo y protegido por derechos de autor en el dataset. Estos problemas ilustran la complejidad de crear conjuntos de datos objetivamente de «calidad» y cómo las decisiones técnicas de filtrado pueden llevar a sesgos sociales no intencionados.
Resultados y rendimiento
En el momento de su publicación, T5 estableció nuevos récords de rendimiento (state-of-the-art) en numerosos benchmarks, incluyendo GLUE, SuperGLUE, SQuAD y tareas de resumen[2]. En particular, el modelo T5-11B alcanzó en SuperGLUE un resultado cercano al nivel humano, demostrando su capacidad para abordar tareas que requieren un razonamiento lógico complejo[9]. Estos resultados confirmaron la hipótesis central de la investigación: la combinación de un marco unificado, una gran escala y un conjunto de datos de alta calidad es una estrategia extremadamente poderosa para lograr resultados de vanguardia en PLN.
Evolución y variantes de T5
El enfoque de T5 sentó las bases para numerosos modelos posteriores:
- mT5: Una versión multilingüe de T5, entrenada en el corpus mC4, que abarca 101 idiomas[10].
- ByT5: Una versión experimental que prescinde por completo de la tokenización y opera directamente con bytes UTF-8 sin procesar. Esto la hace resistente a errores tipográficos y le permite procesar cualquier idioma de forma nativa[11].
- Switch Transformer: Una versión escalable de T5 que introdujo la arquitectura Mixture-of-Experts (MoE), lo que permitió aumentar el número de parámetros a billones (trillions) manteniendo costos computacionales razonables[12].
- FLAN-T5: No es una arquitectura nueva, sino un T5 estándar que ha pasado por una etapa adicional de ajuste fino en cientos de tareas formuladas como instrucciones (instruction tuning). Esto mejoró significativamente su capacidad para generalizar a tareas nuevas y no vistas en modo zero-shot (sin ejemplos)[13].
- UL2: Un modelo que desarrolla las ideas de T5 y utiliza un nuevo objetivo de preentrenamiento llamado Mixture of Denoisers, que combina diferentes esquemas de enmascaramiento de texto para mejorar la universalidad[14].
Enlaces
- Repositorio oficial de T5 en GitHub
- Artículo en el blog de Google Research sobre la investigación de T5
Bibliografía
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv:1910.10683.
- Xue, L. et al. (2021). mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer. arXiv:2010.11934.
- Dodge, J. et al. (2021). Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. arXiv:2104.08758.
- Fedus, W. et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Ni, J. et al. (2021). Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models. arXiv:2108.08877.
- Guo, M. et al. (2021). LongT5: Efficient Text-To-Text Transformer for Long Sequences. arXiv:2112.07916.
- Xue, L. et al. (2022). ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. arXiv:2105.13626.
- Tay, Y. et al. (2022). UL2: Unifying Language Learning Paradigms. arXiv:2205.05131.
- Chung, H. W. et al. (2022). Scaling Instruction-Finetuned Language Models. arXiv:2210.11416.
- Longpre, S. et al. (2023). The Flan Collection: Designing Data and Methods for Effective Instruction Tuning. arXiv:2301.13688.
Notas
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 Raffel, Colin; Shazeer, Noam; Roberts, Adam; et al. «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Journal of Machine Learning Research. [1]
- ↑ 2.0 2.1 2.2 2.3 «Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer». Google Research Blog. [2]
- ↑ «A Detailed Look At Google's T5 Model in NLP». DhiWise Blog. [3]
- ↑ «T5 (Text-to-Text Transfer Transformer)». GeeksforGeeks. [4]
- ↑ «T5». Hugging Face Transformers Documentation. [5]
- ↑ «T5 (language model)». In Wikipedia. [6]
- ↑ «C4 Dataset». Papers With Code. [7]
- ↑ 8.0 8.1 Dodge, J.; Sap, M.; Marasović, A.; et al. «Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus». arXiv. [8]
- ↑ «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit, r/linguistics. [9]
- ↑ Xue, Linting; Constant, Noah; Roberts, Adam; et al. «mT5: A massively multilingual pre-trained text-to-text transformer». arXiv. [10]
- ↑ Xue, Linting; Barua, Aditya; Constant, Noah; et al. «ByT5: Towards a token-free future with pre-trained byte-to-byte models». arXiv. [11]
- ↑ Fedus, William; Zoph, Barret; Shazeer, Noam. «Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity». arXiv. [12]
- ↑ Chung, Hyung Won; et al. «Scaling Instruction-Finetuned Language Models». arXiv. [13]
- ↑ Tay, Yi; Dehghani, Mostafa; Tran, Vinh; et al. «UL2: Unifying Language Learning Paradigms». arXiv. [14]