Few-Shot Prompting : Guide Complet pour des Résultats Précis
Maîtrisez le few-shot prompting pour obtenir des résultats précis de ChatGPT, Claude et Gemini. Exemples concrets, erreurs à éviter et techniques avancées.
Few-Shot Prompting : le guide pour obtenir des résultats précis de l’IA
Vous demandez à ChatGPT de classifier des données, mais le format de sortie change à chaque réponse. Vous voulez un ton précis, mais l’IA improvise. La solution : montrer au modèle exactement ce que vous attendez avec des exemples concrets dans votre prompt.
C’est le principe du few-shot prompting — et c’est la technique qui transforme des résultats aléatoires en sorties reproductibles.
Qu’est-ce que le few-shot prompting ?
Le few-shot prompting consiste à inclure 2 à 5 paires d’exemples (entrée → sortie) directement dans votre prompt pour guider le comportement du modèle de langage. Aucun entraînement supplémentaire n’est nécessaire : le modèle apprend « en contexte » à partir de vos exemples.
Cette technique a été formalisée par Brown et al. en 2020 dans le papier fondateur de GPT-3, Language Models are Few-Shot Learners (NeurIPS 2020). Leur découverte : en ajoutant quelques exemples dans le prompt, GPT-3 rivalisait avec des modèles spécifiquement entraînés sur des tâches NLP.
Concrètement, au lieu de décrire ce que vous voulez en détail, vous le montrez.
Few-shot vs zero-shot vs one-shot : quelle différence ?
La distinction repose sur le nombre d’exemples fournis dans le prompt :
| Technique | Exemples | Quand l’utiliser | Effort |
|---|---|---|---|
| Zero-shot | 0 | Tâche simple, instructions claires suffisent | Faible |
| One-shot | 1 | Format inhabituel, calibrer le ton | Faible |
| Few-shot | 2-5 | Format précis, classification, extraction | Moyen |
Le passage de zero-shot à one-shot représente le plus grand gain par exemple. Brown et al. ont mesuré +3,7 points sur TriviaQA avec un seul exemple ajouté. Au-delà de 3-5 exemples, les gains diminuent — et parfois les performances se dégradent.
Règle pratique : si vos instructions suffisent, restez en zero-shot. Si le modèle ne respecte pas le format ou le ton, ajoutez des exemples.
Combien d’exemples inclure ?
Anthropic recommande officiellement 3 à 5 exemples pour Claude. OpenAI suggère 2 à 5 pour GPT-4o. Le consensus : 3 exemples couvrent 80 % des cas.
Voici comment calibrer :
- 2 exemples — suffisant pour des tâches simples (classification binaire, extraction)
- 3-4 exemples — idéal pour des tâches avec nuances (ton, style, formats complexes)
- 5+ exemples — réservé aux tâches très spécifiques où la diversité des cas compte
Au-delà de 5, vous consommez des tokens sans gain proportionnel. Pire : trop d’exemples peut réduire les performances en surchargeant la fenêtre de contexte.
Comment écrire de bons exemples
La qualité des exemples détermine la qualité des résultats. Une étude de Min et al. (EMNLP 2022) a révélé un résultat contre-intuitif : ce qui compte le plus, c’est le format et la distribution des exemples — pas l’exactitude parfaite de chaque label.
4 règles pour des exemples efficaces
1. Gardez un format identique entre chaque exemple
Le modèle reproduit la structure qu’il observe. Si vos exemples varient en format, la sortie sera incohérente.
❌ Incohérent :
Phrase : "Produit excellent" → Positif
"Le service était nul." -> Sentiment: Négatif
Avis : Super qualité ! (positif)
✅ Cohérent :
Phrase : "Produit excellent" → Sentiment : Positif
Phrase : "Le service était nul" → Sentiment : Négatif
Phrase : "Livraison rapide, très content" → Sentiment : Positif
2. Variez les cas représentés
Des exemples trop similaires mènent à une mauvaise généralisation. Couvrez les cas de figure que le modèle rencontrera.
Pour une classification de sentiment, incluez :
- 1 exemple positif
- 1 exemple négatif
- 1 exemple neutre ou ambigu
3. Soignez l’ordre
Les LLMs sur-pondèrent le dernier exemple (biais de récence). Placez votre exemple le plus représentatif en dernière position.
4. Utilisez des délimiteurs clairs
Pour Claude, Anthropic recommande d’encadrer les exemples dans des balises XML :
<examples>
<example>
<input>Email client mécontent pour retard livraison</input>
<output>Objet : Votre commande — nos excuses sincères
Cher client, nous comprenons votre frustration...</output>
</example>
<example>
<input>Email client satisfait pour demande de témoignage</input>
<output>Objet : Partagez votre expérience avec nous
Bonjour, merci pour votre confiance...</output>
</example>
</examples>
Maintenant, rédigez un email pour : [VOTRE CAS]
Pour ChatGPT et Gemini, des séparateurs simples (tirets, numéros, labels) fonctionnent bien.
Exemple concret : extraction de données structurées
Le few-shot brille particulièrement pour l’extraction de données. Voici un prompt prêt à l’emploi :
Extrais les informations structurées de chaque phrase.
Phrase : "Sarah Chen a rejoint Anthropic comme chercheuse en mars 2024."
Résultat : {"nom": "Sarah Chen", "entreprise": "Anthropic", "rôle": "chercheuse", "date": "mars 2024"}
Phrase : "Thomas Durand est devenu directeur technique chez Mistral AI en janvier 2025."
Résultat : {"nom": "Thomas Durand", "entreprise": "Mistral AI", "rôle": "directeur technique", "date": "janvier 2025"}
Phrase : "Julie Martin travaille comme designer UX chez Figma depuis septembre 2023."
Résultat :
Le modèle reproduira exactement le format JSON avec les mêmes clés, dans le même ordre. Sans exemples, il inventerait ses propres clés et son propre format à chaque requête.
Les 3 erreurs qui sabotent vos prompts few-shot
1. Le biais de majorité
Si 4 de vos 5 exemples sont positifs, le modèle favorisera les réponses positives. Équilibrez la distribution des labels.
2. Le format incohérent
C’est l’erreur la plus fréquente. Un exemple qui utilise des tirets et un autre qui utilise des numéros suffit à brouiller le modèle. Choisissez un format et respectez-le strictement.
3. Des exemples trop longs ou trop nombreux
Chaque exemple consomme des tokens. Si vos exemples occupent 80 % de la fenêtre de contexte, le modèle n’a plus de place pour raisonner. Gardez vos exemples concis et pertinents.
Techniques avancées
Chain-of-Thought few-shot
Combinez le few-shot avec le chain-of-thought prompting en incluant les étapes de raisonnement dans vos exemples :
Question : Si un magasin vend 3 chemises à 25€ et offre 10% de réduction,
quel est le total ?
Raisonnement :
1. Prix des 3 chemises : 3 × 25€ = 75€
2. Réduction de 10% : 75€ × 0,10 = 7,50€
3. Total : 75€ - 7,50€ = 67,50€
Réponse : 67,50€
Question : Un freelance facture 450€/jour pendant 3 jours, avec une
TVA de 20%. Quel est le montant TTC ?
Raisonnement :
Wei et al. (2022) ont démontré que cette combinaison améliore les performances sur les tâches de raisonnement arithmétique, logique et symbolique.
Self-consistency
Générez plusieurs réponses (5-20 tirages) pour le même prompt few-shot avec une température légèrement élevée, puis votez pour la réponse la plus fréquente. Cette technique a montré +17,9 % de précision sur le benchmark GSM8K par rapport au chain-of-thought seul.
Sélection dynamique d’exemples
En production, plutôt que d’utiliser un jeu d’exemples fixe, sélectionnez automatiquement les exemples les plus pertinents pour chaque requête par similarité sémantique. Par exemple, pour une requête sur le marketing, le système pioche des exemples marketing plutôt que des exemples techniques.
Piège : few-shot et modèles de raisonnement
Les modèles conçus pour le raisonnement long (comme o1 d’OpenAI ou les modes « extended thinking » de Claude) fonctionnent souvent mieux en zero-shot. Ajouter trop d’exemples few-shot peut contraindre leur processus de raisonnement et dégrader les performances.
Recommandation : pour les tâches de raisonnement complexe avec ces modèles, commencez en zero-shot. N’ajoutez des exemples que si le format de sortie n’est pas respecté.
Few-shot vs fine-tuning : quand choisir quoi ?
| Critère | Few-shot | Fine-tuning |
|---|---|---|
| Données requises | 2-5 exemples | 50-100+ exemples |
| Temps de mise en place | Immédiat | Heures à jours |
| Coût par token | Standard | 4-6x supérieur (OpenAI) |
| Flexibilité | Modifiable à chaque prompt | Nécessite un ré-entraînement |
| Performance | Bon pour la majorité des cas | Supérieur à grande échelle |
Règle de décision : commencez toujours par le few-shot. Passez au fine-tuning uniquement si les performances restent insuffisantes après optimisation de vos exemples et que vous traitez un volume élevé de requêtes identiques.
FAQ
Quelle est la différence entre few-shot prompting et few-shot learning ?
Le few-shot learning désigne une famille de techniques d’apprentissage machine où un modèle apprend à partir de peu de données d’entraînement. Le few-shot prompting est une application spécifique : fournir des exemples dans le prompt sans modifier les paramètres du modèle. Le premier est un concept ML large, le second est une technique de prompt engineering.
Le few-shot fonctionne-t-il avec tous les modèles IA ?
Oui, mais avec des nuances. ChatGPT (GPT-4o), Claude et Gemini répondent tous très bien au few-shot. Les modèles d’image comme Midjourney ou DALL-E n’utilisent pas le few-shot au sens strict — ils s’appuient sur des descriptions de style. Les modèles de raisonnement (o1, R1) préfèrent souvent le zero-shot.
Combien d’exemples faut-il pour un prompt few-shot efficace ?
3 exemples suffisent pour la majorité des tâches. Montez à 5 si la tâche est nuancée ou si le format de sortie est complexe. Au-delà de 5, les gains sont marginaux et vous risquez de gaspiller des tokens. En 2026, cette logique devient encore plus importante : dans les workflows orientés agents, chaque exemple occupe une partie du budget de contexte, comme on l’explique dans notre analyse sur les tendances prompts IA 2026.
Faut-il que les exemples soient parfaits ?
Non. La recherche (Min et al., 2022) montre que le format et la structure importent plus que l’exactitude de chaque label. Des exemples bien formatés avec des labels approximatifs surpassent des exemples parfaits mais mal structurés.
Points clés
- Le few-shot prompting guide l’IA par l’exemple — 3 à 5 paires entrée/sortie suffisent
- La cohérence du format entre exemples est plus importante que la perfection de chaque exemple
- Attention aux biais de majorité et de récence dans le choix de vos exemples
- Combinez avec le chain-of-thought pour les tâches de raisonnement
- Les modèles de raisonnement (o1, R1) préfèrent le zero-shot — n’ajoutez des exemples que pour le format
- Commencez par le few-shot avant d’envisager le fine-tuning