Encoder-only models (Modèles de type encodeur seul)
Les modèles de type encodeur seul (en anglais, Encoder-Only Models) sont une classe d'architectures de grands modèles de langage (LLM) basées exclusivement sur la partie encodeur de l'architecture Transformer. Contrairement aux modèles utilisant un décodeur ou une architecture encodeur-décodeur complète, ces modèles se spécialisent dans les tâches de compréhension du langage naturel (Natural Language Understanding, NLU).
Le modèle phare et pionnier de cette approche est BERT (Bidirectional Encoder Representations from Transformers), développé par Google en 2018.
Concept et architecture
L'idée principale des modèles de type encodeur seul est de créer des représentations contextualisées (embeddings) profondes pour chaque token de la séquence d'entrée. Grâce au mécanisme d'auto-attention (self-attention) de l'architecture Transformer, chaque token peut « voir » et interagir avec tous les autres tokens de la séquence, ce qui permet au modèle de capturer un contexte riche.
La caractéristique clé est la bidirectionnalité : la représentation de chaque token est formée en se basant simultanément sur le contexte à gauche et à droite. Cela les distingue fondamentalement des modèles autorégressifs de type décodeur seul (comme GPT), qui sont par nature unidirectionnels.
Sur le plan architectural, le modèle est un empilement de couches d'encodeur identiques. Chaque couche se compose de deux sous-couches principales :
- Auto-attention multi-têtes (Multi-Head Self-Attention) : Calcule la représentation contextualisée pour chaque token.
- Réseau de neurones à propagation avant (Feed-Forward Network) : Applique une transformation non linéaire à la représentation de chaque token.
En sortie, le modèle génère une séquence de vecteurs de la même longueur que la séquence d'entrée, où chaque vecteur est une représentation riche du token d'entrée correspondant.
Tâches de pré-entraînement
Pour apprendre au modèle à comprendre le langage dans un contexte bidirectionnel, des tâches auto-supervisées spécifiques sont utilisées pour le pré-entraînement :
Modélisation du langage masqué (Masked Language Modeling, MLM)
Il s'agit de la tâche principale et la plus importante pour les modèles de type encodeur seul, introduite pour la première fois dans BERT.
- Principe de fonctionnement : Un petit pourcentage de tokens (généralement 15 %) est masqué (caché) de manière aléatoire dans la séquence d'entrée. La tâche du modèle est de prédire les valeurs originales de ces tokens masqués en utilisant le contexte bidirectionnel qui les entoure.
- Objectif : Cette tâche force le modèle à apprendre des relations sémantiques et syntaxiques profondes entre les mots.
Prédiction de la phrase suivante (Next Sentence Prediction, NSP)
Cette tâche (également issue du modèle BERT original) a été conçue pour apprendre au modèle à comprendre les relations entre les phrases.
- Principe de fonctionnement : Le modèle reçoit une paire de phrases et doit déterminer si la deuxième phrase est une suite logique de la première dans le texte original.
- Statut : Des recherches ultérieures (par exemple, dans le modèle RoBERTa) ont montré que la NSP est moins efficace que la MLM, et elle est souvent remplacée par d'autres tâches ou complètement supprimée.
Applications
Les modèles de type encodeur seul ne sont pas conçus pour la génération de texte de forme libre, car ils ne possèdent pas de décodeur autorégressif. Leur force réside dans l'analyse et la compréhension du texte. Les représentations vectorielles de sortie du modèle sont utilisées pour résoudre un large éventail de tâches NLU :
- Classification de texte : Pour des tâches telles que l'analyse de sentiment ou la classification de thèmes, on utilise la représentation du token spécial `[CLS]`, qui est ajouté au début de chaque séquence. Son vecteur final agrège les informations de toute la séquence.
- Classification de tokens : Pour des tâches telles que la reconnaissance d'entités nommées (NER) ou l'étiquetage morpho-syntaxique (POS-tagging), on utilise les représentations vectorielles de chaque token individuel.
- Réponse aux questions (Question Answering) : Dans les tâches où la réponse est un extrait du texte donné (extractive QA), le modèle est entraîné à prédire les tokens de début et de fin de la réponse.
- Obtention d'embeddings : Les modèles encodeurs sont souvent utilisés comme des encodeurs de texte universels pour obtenir des embeddings de haute qualité pour des phrases ou des documents, qui peuvent ensuite être utilisés dans les moteurs de recherche ou pour des tâches de similarité sémantique.
Principaux modèles et leur évolution
- BERT (2018) : Pionnier de l'architecture, a établi de nouveaux records sur de nombreux benchmarks de PNL (NLP).
- RoBERTa (2019) : « Un BERT robustement optimisé ». A démontré que les performances de BERT pouvaient être considérablement améliorées par un entraînement plus long sur davantage de données et en abandonnant la tâche NSP.
- ALBERT (2019) : « A Lite BERT ». Un modèle avec un nombre de paramètres considérablement réduit grâce à des techniques de factorisation des embeddings et de partage des paramètres entre les couches.
- DistilBERT (2019) : Une version réduite de BERT, créée par distillation de connaissances, qui est plus rapide et plus légère tout en conservant une grande partie des performances de l'original.
- ELECTRA (2020) : A introduit une tâche de pré-entraînement plus efficace, la détection de token remplacé (replaced token detection), où le modèle apprend à distinguer les tokens originaux des « faux » tokens générés par un petit modèle générateur.
- DeBERTa (2020) : A introduit un mécanisme d'« attention découplée » (disentangled attention), qui encode séparément le contenu et les positions relatives des tokens.
Voir aussi
- BERT