Fine-Tuning (FR)
Le fine-tuning (ou ajustement fin) est une méthode d'apprentissage par transfert en apprentissage automatique, dans laquelle les paramètres d'un modèle pré-entraîné (pre-trained model) sont adaptés pour résoudre une nouvelle tâche spécifique. Au lieu d'entraîner un modèle à partir de zéro, ce qui nécessite d'énormes volumes de données et de ressources de calcul, le fine-tuning permet d'utiliser les connaissances déjà encodées dans les poids du modèle et de les « ajuster » pour des besoins concrets.
Cette approche est devenue la norme de facto dans le domaine de l'apprentissage profond, en particulier pour travailler avec les grands modèles de langage (LLM) et les modèles de vision par ordinateur.
Concept
Le processus de fine-tuning peut être divisé en deux étapes principales :
1. Pré-entraînement (Pre-training) : Un modèle (par exemple, BERT ou GPT) est entraîné sur un très grand et généraliste dataset (par exemple, l'intégralité d'Internet) à l'aide d'une tâche auto-supervisée (par exemple, la prédiction du mot suivant). À cette étape, le modèle apprend des motifs généraux, la syntaxe, la sémantique et des connaissances sur le monde.
2. Ajustement fin (Fine-tuning) : Le modèle pré-entraîné est pris comme base, et ses poids sont ajustés sur un dataset annoté, plus petit mais spécifique à la tâche cible.
L'idée clé est que les connaissances acquises lors de l'étape de pré-entraînement sont universelles et peuvent être transférées avec succès pour résoudre une multitude d'autres tâches plus spécialisées.
Processus de fine-tuning
Un processus de fine-tuning typique comprend les étapes suivantes :
1. Sélection d'un modèle pré-entraîné : On choisit un modèle dont les capacités de base sont adaptées à la tâche cible (par exemple, BERT pour les tâches de compréhension de texte, GPT pour la génération).
2. Adaptation de l'architecture : Une nouvelle couche « de tête » (head), spécifique à la tâche cible, est ajoutée au modèle pré-entraîné. Par exemple :
- Pour la classification de texte, on ajoute une simple couche entièrement connectée avec une fonction softmax.
- Pour la reconnaissance d'entités nommées (NER), un classifieur est ajouté à la sortie de chaque token.
3. Entraînement sur le dataset cible : Le modèle entier (ou une partie de celui-ci) est entraîné sur le nouveau dataset annoté. À cette étape, les poids du modèle, y compris ceux des couches pré-entraînées, sont mis à jour par descente de gradient pour minimiser la fonction de perte sur la nouvelle tâche. 4. Utilisation d'un taux d'apprentissage plus faible : Lors du fine-tuning, on utilise généralement un taux d'apprentissage (learning rate) nettement plus faible que lors du pré-entraînement. Cela est nécessaire pour ne pas « détruire » les connaissances utiles déjà encodées dans les poids du modèle, mais seulement pour les corriger avec précaution.
Types de fine-tuning
Ajustement fin complet (Full Fine-tuning)
- Principe : Tous les paramètres du modèle pré-entraîné sont mis à jour, ainsi que la nouvelle couche « de tête ».
- Avantages : Peut potentiellement offrir les meilleures performances, car l'ensemble du modèle s'adapte à la nouvelle tâche.
- Inconvénients : Exige des ressources de calcul et une mémoire considérables, car il faut stocker et mettre à jour les gradients pour tous les paramètres. Il existe un risque doubli catastrophique (catastrophic forgetting), lorsque le modèle « oublie » les connaissances générales acquises lors du pré-entraînement.
Fine-tuning efficace en paramètres (Parameter-Efficient Fine-Tuning, PEFT)
Il s'agit d'une famille de méthodes visant à réduire les coûts de calcul lors du fine-tuning. L'idée principale est de geler la plupart des paramètres du modèle pré-entraîné et de n'entraîner qu'un petit nombre de paramètres nouveaux ou sélectionnés.
- Exemples de méthodes PEFT :
- Adaptateurs (Adapters) : De petites couches supplémentaires, appelées adaptateurs, sont insérées dans l'architecture Transformer, et seules ces dernières sont entraînées.
- LoRA (Low-Rank Adaptation) : Au lieu de mettre à jour les matrices de poids complètes, LoRA entraîne leurs mises à jour de bas rang. Cela permet de réduire le nombre de paramètres à entraîner de plusieurs milliers de fois.
- Prompt-tuning : Des vecteurs « prompts » entraînables sont ajoutés aux données d'entrée. Ils sont ajustés pour résoudre la tâche, tandis que le modèle lui-même reste gelé.
- Avantages du PEFT :
- Efficacité : Réduit considérablement les besoins en mémoire et en calcul.
- Modularité : Permet d'adapter facilement un seul modèle pré-entraîné à de multiples tâches, en ne stockant que de petits ensembles de poids adaptés pour chacune d'elles.
Ajustement sur instructions (Instruction Tuning)
Il s'agit d'un type spécifique de fine-tuning visant à améliorer la capacité d'un LLM à suivre des instructions en langage naturel.
- Principe de fonctionnement : Le modèle est fine-tuné sur un dataset composé de paires « instruction — sortie souhaitée ».
- Objectif : Améliorer la capacité de généralisation du modèle à de nouvelles tâches, jamais vues auparavant, qui peuvent être décrites sous forme d'instructions. Des modèles comme InstructGPT et FLAN-T5 sont des exemples marquants de cette approche.
Références
- Howard, J.; Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. arXiv:1801.06146.
- Houlsby, N. et al. (2019). Parameter-Efficient Transfer Learning for NLP. arXiv:1902.00751.
- Pfeiffer, J. et al. (2020). AdapterFusion: Non-Destructive Task Composition for Transfer Learning. arXiv:2005.00247.
- Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Lester, B.; Al-Rfou, R.; Constant, N. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. arXiv:2104.08691.
- Ben Zaken, A.; Goldberg, Y.; Ravfogel, S. (2022). BitFit: Simple Parameter-Efficient Fine-Tuning for Transformer-based Masked Language-Models. ACL 2022.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Han, Z. et al. (2024). Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey. arXiv:2403.14608.
- Bian, J. et al. (2025). A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning. arXiv:2504.21099.
- Li, X. et al. (2025). Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques and Future Directions. Preprints.org.
Voir aussi
- Grands modèles de langage
- BERT
- GPT