Token (LLM) (ES)
Token — es la unidad mínima de texto con la que los grandes modelos de lenguaje (LLM) pueden trabajar. Cualquier texto, antes de ser procesado por un LLM, se convierte previamente en una secuencia de tokens, que luego se traducen a representaciones numéricas convenientes para el análisis y procesamiento por parte del modelo.
Dependiendo de la estrategia de tokenización utilizada, un token puede representar:
- Una palabra completa (por ejemplo, "casa")
- Una parte de una palabra o una raíz (por ejemplo, "cas" en "casita")
- Un solo carácter o signo de puntuación (por ejemplo, ",", "!")
El uso de tokens permite a los modelos de lenguaje aprender y reproducir eficientemente las estructuras del texto, identificar patrones y comprender la semántica y la sintaxis del texto.
Proceso de tokenización
Tokenización (tokenization) — es el proceso de dividir el texto original en tokens, con su posterior conversión en identificadores numéricos comprensibles para el modelo.
Esta etapa es obligatoria y fundamental para el funcionamiento de los grandes modelos de lenguaje. A través de ella, un LLM puede:
- Analizar la sintaxis: la estructura del texto y la disposición de sus elementos (palabras y frases);
- Extraer la semántica: el significado profundo del texto y las interrelaciones entre los elementos.
Existen varios métodos principales de tokenización, entre los que se incluyen:
- Byte Pair Encoding (BPE): Un algoritmo que reemplaza iterativamente los pares de caracteres más frecuentes con nuevos tokens, lo que permite procesar eficientemente palabras raras y variaciones morfológicas.
- WordPiece: Utilizado en los modelos BERT, divide las palabras en unidades de subpalabras, lo que ayuda en el procesamiento de palabras desconocidas.
- SentencePiece: Un método que trata el texto como una secuencia de caracteres y aplica modelos basados en BPE o Unigram para la tokenización.
La elección del método de tokenización influye en el rendimiento del modelo, su capacidad para procesar diferentes idiomas y la eficiencia del entrenamiento.
Tokens especiales
Además de los tokens principales, los modelos también utilizan tokens especiales para denotar elementos funcionales del texto, tales como:
[CLS](clase) — token de inicio de secuencia, a menudo utilizado para tareas de clasificación de texto;[SEP](separador) — separa diferentes partes del texto (por ejemplo, una pregunta y su respuesta, oraciones o párrafos);[MASK]— un token especial para indicar una palabra que el modelo debe predecir (utilizado en BERT y otros modelos de lenguaje enmascarado);[PAD](relleno) — se utiliza para alinear la longitud del texto.
Estos tokens especiales ayudan a los modelos a percibir con mayor precisión la estructura y el contexto del texto que se está procesando.
Tokens y ventana de contexto
Ventana de contexto (context window) — es la cantidad máxima de tokens que un modelo puede considerar y procesar simultáneamente al generar texto.
Por ejemplo, el modelo GPT-3 tiene una ventana de contexto de 2048 tokens. Esto significa que al crear texto, el modelo puede considerar simultáneamente la información contenida en un máximo de 2048 tokens del texto de entrada. El tamaño de la ventana de contexto influye en:
- El volumen máximo de información disponible para el modelo;
- La calidad y coherencia de las respuestas generadas;
- La capacidad del modelo para comprender textos largos y mantener el contexto a lo largo de grandes distancias entre tokens.
Referencias
- Sennrich, R.; Haddow, B.; Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. arXiv:1508.07909.
- Kudo, T.; Richardson, J. (2018). SentencePiece: A Simple and Language-Independent Subword Tokenizer and Detokenizer for Neural Text Processing. arXiv:1808.06226.
- Kudo, T. (2018). Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates. arXiv:1804.10959.
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
- Song, X. et al. (2021). Fast WordPiece Tokenization. *EMNLP 2021*. ACL Anthology.
- Mielke, S. J.; Dalmia, S.; Cotterell, R. (2021). A Brief History of Open-Vocabulary Modeling and Tokenization in NLP. arXiv:2112.10508.
- Xue, J. et al. (2022). ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. arXiv:2105.13626.
- Limisiewicz, T.; Balhar, J.; Mareček, D. (2023). Tokenization Impacts Multilingual Language Modeling: Assessing Vocabulary Allocation and Overlap Across Languages. arXiv:2305.17179.
- Pourmostafa Roshan Sharami, J.; Shterionov, D.; Spronck, P. (2023). A Systematic Analysis of Vocabulary and BPE Settings for Optimal Fine-tuning of NMT. arXiv:2303.00722.
- Batsuren, K. et al. (2024). Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge. arXiv:2404.13292.
- Chai, Y. et al. (2024). Tokenization Falling Short: On Subword Robustness in Large Language Models. arXiv:2406.11687.