Tokens en IA : définition et pourquoi ils comptent

Les tokens sont les unités de base du texte que les modèles de langage IA lisent et génèrent. Un token n’est pas exactement un mot — ce peut être un mot, une partie de mot, un caractère unique ou même un signe de ponctuation. Comprendre les tokens est essentiel car ils déterminent ce que vous pouvez intégrer dans un prompt, combien coûte une requête et comment les modèles traitent votre entrée.

Comment fonctionne la tokenization

Avant qu’un modèle d’IA ne traite votre texte, il le décompose en tokens par un processus appelé tokenization. Le modèle ne lit pas les phrases comme un humain. Il convertit le texte en une séquence d’identifiants numériques de tokens tirés de son vocabulaire.

Voici comment du texte anglais se tokenize typiquement :

“Hello” = 1 token
“Artificial intelligence” = 2 tokens
“Prompticon” = 3 tokens (Prom + ptic + on)
“I’m learning about AI.” = 6 tokens

Une règle approximative pour l’anglais : 1 token correspond à environ 4 caractères, soit environ 0,75 mot. Cela signifie que 100 tokens couvrent environ 75 mots. Les autres langues (chinois, japonais, coréen) tendent à utiliser plus de tokens par mot car leurs caractères sont moins fréquents dans les données d’entraînement.

Limites de tokens par modèle

Chaque modèle d’IA a une context window — le nombre maximum de tokens qu’il peut gérer dans une seule conversation (entrée + sortie combinées).

Modèle	Context Window	Mots approx.
GPT-3.5 Turbo	16 385 tokens	~12 000 mots
GPT-4o	128 000 tokens	~96 000 mots
GPT-4.1	1 048 576 tokens	~785 000 mots
Claude 3.5 Sonnet	200 000 tokens	~150 000 mots
Claude Opus 4	200 000 tokens	~150 000 mots
Gemini 2.5 Pro	1 048 576 tokens	~785 000 mots

Quand votre conversation dépasse la context window, le modèle tronque les anciens messages ou refuse la requête. Planifier votre budget de tokens est critique pour les longues conversations et les tâches complexes.

Comment les tokens affectent les coûts

La tarification des API pour les modèles d’IA est basée sur les tokens traités. Les fournisseurs facturent séparément les tokens d’entrée (votre prompt) et les tokens de sortie (la réponse du modèle). Les tokens de sortie sont généralement 2 à 4 fois plus chers que les tokens d’entrée.

Par exemple, avec GPT-4o :

Entrée : 2,50 $ par million de tokens
Sortie : 10,00 $ par million de tokens

Cela signifie qu’un prompt de 500 mots (~670 tokens) suivi d’une réponse de 1 000 mots (~1 340 tokens) coûte des fractions de centime. Mais à grande échelle — des milliers d’appels API par jour — l’efficience en tokens impacte directement votre budget.

Conseils pratiques pour gérer les tokens

1. Comptez avant d’envoyer. Utilisez l’outil Tokenizer d’OpenAI ou la bibliothèque Python tiktoken pour compter les tokens avant de faire des appels API. Les utilisateurs de Claude peuvent estimer avec la règle des 4 caractères par token.

2. Soyez concis dans les prompts. Supprimez les mots de remplissage, les instructions redondantes et le contexte inutile. Un prompt plus court laisse plus de place à la réponse du modèle.

3. Élaguez l’historique de conversation. Dans les conversations multi-tours, résumez les échanges antérieurs au lieu de transmettre l’historique complet. Cela vous maintient dans la context window et réduit les coûts.

4. Choisissez le bon modèle. Si votre tâche tient dans 16K tokens, vous n’avez pas besoin d’un modèle avec une context window de 128K. Les context windows plus petites s’accompagnent souvent de tarifs par token plus bas.

5. Fixez un maximum de tokens en sortie. Utilisez le paramètre max_tokens pour plafonner la longueur de la réponse. Cela empêche le modèle de générer des réponses inutilement longues et de dévorer votre budget.

Quand les limites de tokens deviennent un problème

Les limites de tokens comptent le plus quand vous travaillez avec :

De longs documents : analyser un PDF de 50 pages peut dépasser les context windows plus petites
Des dépôts de code : les grandes bases de code nécessitent des stratégies de découpage
Des agents multi-tours : les agents autonomes accumulent du contexte rapidement sur de nombreuses étapes
Des systèmes RAG : la Retrieval-Augmented Generation doit équilibrer les chunks récupérés avec l’espace du prompt

Dans ces cas, des techniques comme le découpage, la synthèse et les approches de fenêtre glissante vous aident à travailler efficacement dans les contraintes de tokens.

Termes associés

Context Window - le maximum de tokens qu’un modèle peut traiter à la fois
Temperature - contrôle l’aléatoire dans les sorties du modèle
Fine-Tuning - entraîner un modèle sur des données personnalisées pour améliorer la performance