Prompticon
glossaire

Fine-Tuning en IA : définition et guide pratique

Découvrez le fine-tuning en IA : différences avec le prompting et le RAG, quand l'utiliser, processus, coûts et modèles compatibles.

glossairefine-tuningllmmachine-learning

Le fine-tuning est le processus qui consiste à prendre un modèle d’IA pré-entraîné et à l’entraîner davantage sur un jeu de données plus petit et spécialisé pour qu’il performe mieux sur une tâche précise. Au lieu de construire un modèle de zéro, vous partez des connaissances générales d’un modèle existant et les affinez pour vos besoins exacts.

Imaginez ça comme embaucher un diplômé (le modèle pré-entraîné) puis lui donner une formation sur le terrain (le fine-tuning) pour qu’il excelle dans les workflows spécifiques de votre entreprise.

Comment fonctionne le fine-tuning

Le processus suit un pipeline simple :

  1. Partir d’un modèle de base - Choisissez un modèle pré-entraîné comme GPT-4o, Llama 3 ou Mistral.
  2. Préparer les données d’entraînement - Créez un jeu de données de paires entrée-sortie qui démontrent le comportement souhaité. Typiquement des centaines à des milliers d’exemples.
  3. Lancer l’entraînement - Alimentez le modèle avec vos données. Les poids internes du modèle s’ajustent légèrement pour correspondre à vos exemples.
  4. Évaluer et itérer - Testez le modèle fine-tuné, affinez votre jeu de données et ré-entraînez si nécessaire.

Le point clé : le fine-tuning modifie le modèle lui-même. Après le fine-tuning, le modèle « se souvient » de vos données d’entraînement comme faisant partie de son comportement de base, sans avoir besoin de prompts spéciaux.

Fine-tuning vs prompting vs RAG

ApprocheComment ça marcheIdéal pourLimites
PromptingInstructions dans le promptTâches rapides, usage généralLimité par la context window
Fine-tuningRé-entraîne les poids du modèleStyle/format cohérent, domaines spécialisésCoûteux, connaissances statiques
RAGRécupère des documents externes au moment de la requêteDonnées fraîches, grandes bases de connaissancesAjoute de la latence, qualité de récupération variable

Commencez par le prompting. C’est l’approche la moins chère et la plus rapide. Ne passez au fine-tuning que lorsque le prompting échoue systématiquement à produire le style, le format ou l’expertise de domaine dont vous avez besoin.

Utilisez le RAG quand vos données changent fréquemment. Le fine-tuning fige les connaissances dans le modèle au moment de l’entraînement. Si vos données se mettent à jour quotidiennement, le RAG est le meilleur choix.

Utilisez le fine-tuning quand vous avez besoin d’un comportement cohérent à grande échelle. Si vous avez besoin que le modèle réponde toujours dans un format, un ton ou un style de domaine spécifique à travers des milliers de requêtes, le fine-tuning élimine le besoin de longs system prompts et réduit les coûts en tokens par requête.

Quand le fine-tuning a du sens

  • Style d’écriture personnalisé : correspondre à une voix de marque, un ton éditorial ou un style technique de manière cohérente.
  • Spécialisation de domaine : terminologie médicale, juridique ou financière que le modèle de base gère mal.
  • Formatage de sortie : toujours produire du JSON structuré, des templates de rapports spécifiques ou des réponses standardisées.
  • Optimisation des coûts : remplacer de longs system prompts par un comportement appris, réduisant l’usage de tokens par requête.

Quand le fine-tuning est excessif

  • Votre tâche fonctionne bien avec un bon prompt (la plupart des tâches, en fait).
  • Vos données changent fréquemment (utilisez le RAG à la place).
  • Vous avez moins de 50 exemples d’entraînement de qualité.
  • Vous avez besoin que le modèle cite ses sources ou accède à des données en temps réel.

Coûts et limites pratiques

Le fine-tuning n’est pas gratuit. Voici ce à quoi vous pouvez vous attendre :

  • Fine-tuning GPT-4o mini (OpenAI) : à partir de 0,30 $ par million de tokens d’entraînement. Abordable pour les petits jeux de données.
  • Fine-tuning GPT-4o (OpenAI) : nettement plus cher, environ 25 $ par million de tokens d’entraînement.
  • Modèles open-source (Llama, Mistral) : gratuit pour le fine-tuning, mais vous avez besoin d’une infrastructure GPU (1-5 $/heure chez les fournisseurs cloud).
  • Préparation des données : le coût caché. Constituer des centaines d’exemples de haute qualité prend du temps.

Les modèles fine-tunés peuvent aussi « oublier » des capacités générales si vos données d’entraînement sont trop restreintes. C’est ce qu’on appelle l’oubli catastrophique (catastrophic forgetting), un risque réel avec des jeux de données petits ou biaisés.

Quels modèles supportent le fine-tuning

  • OpenAI : GPT-4o, GPT-4o mini, GPT-3.5 Turbo via l’API de fine-tuning.
  • Meta Llama 3 : modèles open-weight que vous pouvez fine-tuner sur votre propre matériel.
  • Mistral : modèles ouverts avec support du fine-tuning.
  • Google Gemini : fine-tuning disponible via Vertex AI.
  • Anthropic Claude : ne propose pas actuellement d’accès public au fine-tuning.

Termes associés

  • Tokens - les unités utilisées pour mesurer les données d’entraînement et les coûts d’inférence
  • RAG (Retrieval-Augmented Generation) - une alternative au fine-tuning pour les tâches à forte intensité de connaissances
  • Temperature - un paramètre qui contrôle l’aléatoire des sorties, aussi bien pour les modèles fine-tunés que pour les modèles de base