Context Window en IA : définition et guide pratique

La context window (fenêtre de contexte) est la quantité maximale de texte qu’un modèle d’IA peut traiter en une seule interaction. Elle inclut tout : votre system prompt, l’historique de la conversation, les documents que vous collez, et la réponse du modèle. Une fois la context window dépassée, le modèle tronque le contenu plus ancien ou refuse la requête.

Pensez-y comme la mémoire de travail du modèle. Une context window plus grande signifie que le modèle peut « garder plus d’informations en tête » à la fois.

Comment la context window est mesurée

Les context windows sont mesurées en tokens, pas en mots ni en caractères. Un token correspond à environ 3-4 caractères en anglais, soit environ 0,75 mot. Ainsi :

1 000 tokens représentent environ 750 mots (environ 1,5 page de texte)
128 000 tokens représentent environ 96 000 mots (environ un livre de 300 pages)
1 000 000 de tokens représentent environ 750 000 mots (plusieurs romans complets)

L’entrée et la sortie comptent dans la limite. Si un modèle a une context window de 128K et que votre entrée utilise 120K tokens, le modèle ne peut générer qu’environ 8K tokens dans sa réponse.

Tailles de context window par modèle

Modèle	Context Window	Équivalent approximatif en mots
GPT-3.5 Turbo	16 384 tokens	~12 000 mots
GPT-4o	128 000 tokens	~96 000 mots
GPT-4o mini	128 000 tokens	~96 000 mots
Claude 3.5 Sonnet	200 000 tokens	~150 000 mots
Claude 3 Opus	200 000 tokens	~150 000 mots
Gemini 1.5 Pro	1 000 000 tokens	~750 000 mots
Gemini 2.0 Flash	1 000 000 tokens	~750 000 mots
Llama 3 (70B)	128 000 tokens	~96 000 mots
Mistral Large	128 000 tokens	~96 000 mots

Ces chiffres évoluent rapidement. La tendance est claire : les context windows deviennent considérablement plus grandes à chaque génération de modèle.

Pourquoi la taille de la context window est importante

Longues conversations

Chaque message d’une conversation accumule des tokens. Dans un long échange, les messages plus anciens finissent par être poussés hors de la context window. Le modèle « oublie » ce qui a été discuté au début, même si la conversation semble continue dans l’interface.

Analyse de documents

Vous voulez analyser un contrat de 50 pages ? Il vous faut un modèle avec une context window assez grande pour contenir l’intégralité du document, plus vos instructions, plus la réponse générée. Avec un modèle à 16K tokens, vous êtes limité à environ 10 pages. Avec un modèle à 200K, vous pouvez traiter des documents complets.

System prompts et instructions

Les applications complexes utilisent des system prompts détaillés qui peuvent consommer des milliers de tokens avant même que l’utilisateur ne tape quoi que ce soit. Cela réduit l’espace effectif disponible pour le contenu utilisateur et les réponses du modèle.

Stratégies pour gérer les limites de la context window

1. Résumer le contexte antérieur

Au lieu de fournir l’intégralité de l’historique de conversation, résumez périodiquement les échanges plus anciens et remplacez-les par une version condensée. Cela préserve les informations clés tout en libérant des tokens.

2. Utiliser le RAG au lieu de tout coller

Plutôt que de coller des documents entiers dans le prompt, utilisez la Retrieval-Augmented Generation (RAG) pour récupérer uniquement les sections pertinentes. C’est bien plus efficient en tokens et s’adapte à des bases de connaissances de toute taille.

3. Découper les longs documents

Divisez les documents volumineux en sections et traitez-les un par un. Demandez au modèle d’extraire les informations clés de chaque morceau, puis combinez les résultats dans un passage final.

4. Être concis dans les prompts

Les instructions verbeuses gaspillent des tokens. Rédigez des prompts clairs et directs. Supprimez les mots de remplissage. Chaque token dans votre prompt est un token de moins disponible pour la réponse.

5. Choisir le bon modèle

Adaptez le modèle à la tâche. Une question rapide n’a pas besoin d’une context window d’1 million de tokens. Une revue de code complète, si. Les context windows plus grandes s’accompagnent souvent de coûts par token plus élevés.

Context window vs mémoire à long terme

Une context window n’est pas de la mémoire. Elle se réinitialise à chaque nouvelle conversation. Certaines plateformes (comme ChatGPT avec ses fonctions de mémoire ou Claude avec les connaissances de projet) simulent la persistance en stockant des informations entre les sessions, mais la context window sous-jacente a toujours une limite fixe par interaction.

Vue d’ensemble

Les context windows plus grandes réduisent le besoin de stratégies complexes de découpage et simplifient les architectures RAG. Mais elles ne sont pas une solution miracle. Les modèles peuvent avoir du mal avec les informations enfouies au milieu de contextes très longs, un phénomène que les chercheurs appellent l’effet « lost in the middle ». Même avec une fenêtre d’un million de tokens, la conception stratégique des prompts et le placement de l’information restent essentiels.

Termes associés

Tokens - les unités utilisées pour mesurer la taille de la context window
RAG (Retrieval-Augmented Generation) - une technique pour contourner les limites de la context window en récupérant uniquement l’information pertinente
Hallucination - plus susceptible de se produire quand un contexte important sort de la fenêtre