Fine-Tuning en IA : définition et guide pratique
Découvrez le fine-tuning en IA : différences avec le prompting et le RAG, quand l'utiliser, processus, coûts et modèles compatibles.
Le fine-tuning est le processus qui consiste à prendre un modèle d’IA pré-entraîné et à l’entraîner davantage sur un jeu de données plus petit et spécialisé pour qu’il performe mieux sur une tâche précise. Au lieu de construire un modèle de zéro, vous partez des connaissances générales d’un modèle existant et les affinez pour vos besoins exacts.
Imaginez ça comme embaucher un diplômé (le modèle pré-entraîné) puis lui donner une formation sur le terrain (le fine-tuning) pour qu’il excelle dans les workflows spécifiques de votre entreprise.
Comment fonctionne le fine-tuning
Le processus suit un pipeline simple :
- Partir d’un modèle de base - Choisissez un modèle pré-entraîné comme GPT-4o, Llama 3 ou Mistral.
- Préparer les données d’entraînement - Créez un jeu de données de paires entrée-sortie qui démontrent le comportement souhaité. Typiquement des centaines à des milliers d’exemples.
- Lancer l’entraînement - Alimentez le modèle avec vos données. Les poids internes du modèle s’ajustent légèrement pour correspondre à vos exemples.
- Évaluer et itérer - Testez le modèle fine-tuné, affinez votre jeu de données et ré-entraînez si nécessaire.
Le point clé : le fine-tuning modifie le modèle lui-même. Après le fine-tuning, le modèle « se souvient » de vos données d’entraînement comme faisant partie de son comportement de base, sans avoir besoin de prompts spéciaux.
Fine-tuning vs prompting vs RAG
| Approche | Comment ça marche | Idéal pour | Limites |
|---|---|---|---|
| Prompting | Instructions dans le prompt | Tâches rapides, usage général | Limité par la context window |
| Fine-tuning | Ré-entraîne les poids du modèle | Style/format cohérent, domaines spécialisés | Coûteux, connaissances statiques |
| RAG | Récupère des documents externes au moment de la requête | Données fraîches, grandes bases de connaissances | Ajoute de la latence, qualité de récupération variable |
Commencez par le prompting. C’est l’approche la moins chère et la plus rapide. Ne passez au fine-tuning que lorsque le prompting échoue systématiquement à produire le style, le format ou l’expertise de domaine dont vous avez besoin.
Utilisez le RAG quand vos données changent fréquemment. Le fine-tuning fige les connaissances dans le modèle au moment de l’entraînement. Si vos données se mettent à jour quotidiennement, le RAG est le meilleur choix.
Utilisez le fine-tuning quand vous avez besoin d’un comportement cohérent à grande échelle. Si vous avez besoin que le modèle réponde toujours dans un format, un ton ou un style de domaine spécifique à travers des milliers de requêtes, le fine-tuning élimine le besoin de longs system prompts et réduit les coûts en tokens par requête.
Quand le fine-tuning a du sens
- Style d’écriture personnalisé : correspondre à une voix de marque, un ton éditorial ou un style technique de manière cohérente.
- Spécialisation de domaine : terminologie médicale, juridique ou financière que le modèle de base gère mal.
- Formatage de sortie : toujours produire du JSON structuré, des templates de rapports spécifiques ou des réponses standardisées.
- Optimisation des coûts : remplacer de longs system prompts par un comportement appris, réduisant l’usage de tokens par requête.
Quand le fine-tuning est excessif
- Votre tâche fonctionne bien avec un bon prompt (la plupart des tâches, en fait).
- Vos données changent fréquemment (utilisez le RAG à la place).
- Vous avez moins de 50 exemples d’entraînement de qualité.
- Vous avez besoin que le modèle cite ses sources ou accède à des données en temps réel.
Coûts et limites pratiques
Le fine-tuning n’est pas gratuit. Voici ce à quoi vous pouvez vous attendre :
- Fine-tuning GPT-4o mini (OpenAI) : à partir de 0,30 $ par million de tokens d’entraînement. Abordable pour les petits jeux de données.
- Fine-tuning GPT-4o (OpenAI) : nettement plus cher, environ 25 $ par million de tokens d’entraînement.
- Modèles open-source (Llama, Mistral) : gratuit pour le fine-tuning, mais vous avez besoin d’une infrastructure GPU (1-5 $/heure chez les fournisseurs cloud).
- Préparation des données : le coût caché. Constituer des centaines d’exemples de haute qualité prend du temps.
Les modèles fine-tunés peuvent aussi « oublier » des capacités générales si vos données d’entraînement sont trop restreintes. C’est ce qu’on appelle l’oubli catastrophique (catastrophic forgetting), un risque réel avec des jeux de données petits ou biaisés.
Quels modèles supportent le fine-tuning
- OpenAI : GPT-4o, GPT-4o mini, GPT-3.5 Turbo via l’API de fine-tuning.
- Meta Llama 3 : modèles open-weight que vous pouvez fine-tuner sur votre propre matériel.
- Mistral : modèles ouverts avec support du fine-tuning.
- Google Gemini : fine-tuning disponible via Vertex AI.
- Anthropic Claude : ne propose pas actuellement d’accès public au fine-tuning.
Termes associés
- Tokens - les unités utilisées pour mesurer les données d’entraînement et les coûts d’inférence
- RAG (Retrieval-Augmented Generation) - une alternative au fine-tuning pour les tâches à forte intensité de connaissances
- Temperature - un paramètre qui contrôle l’aléatoire des sorties, aussi bien pour les modèles fine-tunés que pour les modèles de base