À retenir
- Le prompt ne suffit plus : ce qui décide de la qualité d'une réponse, c'est surtout tout ce que le modèle voit autour de la question, c'est-à-dire son contexte.
- Une grande fenêtre de contexte n'est pas une garantie : trop d'information peut dégrader la réponse. L'objectif n'est pas d'en mettre moins, mais d'en mettre du pertinent.
- L'avantage durable n'est pas le modèle, vos concurrents ont les mêmes, mais votre façon d'organiser, dater, hiérarchiser et sécuriser ce que l'IA a sous les yeux.
Du prompt engineering au context engineering
Le terme « context engineering » ne semble pas être né en une seule publication parfaitement identifiable. Il s'est cependant imposé dans le débat au cours de l'été 2025. Tobi Lütke, dirigeant de Shopify, le présentait comme « l'art de fournir tout le contexte nécessaire pour qu'une tâche puisse raisonnablement être résolue par un LLM ». Andrej Karpathy, cofondateur d'OpenAI et ancien directeur de l'intelligence artificielle chez Tesla, a ensuite largement relayé cette idée : dans une application professionnelle, le véritable travail consiste à remplir la fenêtre de contexte avec les bonnes informations pour l'étape suivante.[1] Le 29 septembre 2025, Anthropic consacrait à son tour une publication complète à l'ingénierie du contexte pour les agents IA. L'entreprise la décrivait comme l'évolution naturelle du prompt engineering : on ne cherche plus uniquement à rédiger de bonnes instructions, mais à sélectionner et maintenir l'ensemble optimal d'informations disponibles au moment où le modèle travaille.[2] Il ne s'agit donc pas de remplacer un mot à la mode par un autre. Le prompt reste important. Il devient simplement une pièce d'un système beaucoup plus vaste.| Prompt engineering | Context engineering |
|---|---|
| Comment formuler la demande ? | Que doit savoir le modèle pour traiter la demande ? |
| Travaille surtout sur les instructions | Travaille sur l'ensemble des informations disponibles |
| Cherche à améliorer une interaction | Cherche à fiabiliser tout un système |
| Se concentre sur les mots | S'intéresse aussi aux données, aux outils, à la mémoire et aux sources |
Le contexte, c'est quoi exactement ?
- les instructions générales définies par le concepteur ;
- l'historique de la conversation ;
- des informations concernant l'utilisateur ;
- des documents retrouvés dans une base de connaissances ;
- des exemples de réponses attendues ;
- la liste des outils qu'il peut utiliser ;
- les résultats de ses précédentes actions ;
- des notes ou résumés conservés en mémoire ;
- des règles métier, des métadonnées ou des contraintes de sécurité.
Pourquoi le sujet devient-il si important maintenant ?
Trois évolutions se produisent en parallèle. D'abord, les modèles peuvent accepter des volumes de texte de plus en plus importants. Les fenêtres de contexte se comptent désormais parfois en centaines de milliers, voire en millions de tokens. Ensuite, les entreprises utilisent couramment des systèmes de RAG, pour Retrieval-Augmented Generation. Au lieu de se contenter des connaissances apprises pendant son entraînement, le modèle recherche des documents dans une base puis les utilise pour construire sa réponse. Enfin, les agents IA ne réalisent plus seulement une génération isolée. Ils peuvent rechercher une information, consulter un fichier, appeler un outil, analyser le résultat, modifier leur plan puis recommencer. Chaque action produit de nouvelles informations. Chaque information peut être ajoutée au contexte suivant. Sans mécanisme de sélection, l'agent accumule alors les résultats de recherche, les messages précédents, les erreurs, les fichiers consultés et les sorties de ses outils. Au bout d'un moment, sa mémoire de travail ressemble moins à un bureau bien rangé qu'au tiroir dans lequel on range les câbles « qui pourront peut-être servir un jour ».Une grande fenêtre de contexte ne garantit pas une bonne réponse
La confusion la plus fréquente consiste à penser qu'une grande fenêtre permet d'envoyer davantage de documents sans avoir à faire de tri. Malheureusement, la capacité théorique d'un modèle à accepter du texte ne garantit pas qu'il saura utiliser chaque information avec la même précision. L'étude Lost in the Middle, diffusée initialement en 2023 puis publiée en 2024 dans la revue Transactions of the Association for Computational Linguistics, a étudié la manière dont plusieurs modèles exploitaient de longs contextes.[3] Les chercheurs ont notamment constaté que leurs performances étaient souvent meilleures lorsque l'information pertinente apparaissait au début ou à la fin du contexte. Elles diminuaient lorsqu'elle se trouvait au milieu, y compris pour des modèles spécialement conçus pour accepter de longues entrées. En juillet 2025, Chroma a prolongé cette réflexion en testant 18 modèles, parmi lesquels des modèles des familles GPT, Claude, Gemini et Qwen.[4] Ce travail est un rapport technique et non un article académique évalué par les pairs. Il faut donc éviter de lui faire dire davantage que ce qu'il démontre. Ses résultats restent néanmoins intéressants : sur plusieurs tâches contrôlées, les performances devenaient moins régulières à mesure que la quantité de contexte augmentait. L'un des tests s'appuyait sur un jeu de données destiné à évaluer la mémoire conversationnelle. Les chercheurs ont comparé :- une version ciblée contenant uniquement les éléments nécessaires, d'environ 300 tokens en moyenne ;
- une version complète de l'historique, d'environ 113 000 tokens en moyenne.
Le contexte ne doit pas seulement être court. Il doit être pertinent.
Dire « mettons moins de tokens » serait encore trop simpliste. Un contexte très court mais incomplet produira évidemment de mauvaises réponses. L'objectif consiste à trouver le plus petit ensemble d'informations permettant au modèle d'accomplir correctement la tâche. Prenons un assistant chargé de préparer une proposition commerciale. L'entreprise possède :- une grille tarifaire de 2024 ;
- une grille tarifaire de 2026 ;
- un modèle de contrat ;
- plusieurs comptes rendus d'échanges avec le prospect ;
- une documentation technique ;
- des dizaines d'anciens devis ;
- les conditions particulières négociées avec ce client.
C'est aussi une question de sécurité
- les instructions de confiance ;
- les données fournies par l'utilisateur ;
- les documents issus de sources internes ;
- les contenus externes potentiellement hostiles ;
- les actions que le modèle peut proposer ;
- les actions qu'il est réellement autorisé à exécuter.
Comment améliorer concrètement le contexte d'une IA ?
Il n'existe pas de recette universelle, mais plusieurs réflexes permettent déjà d'éviter une bonne partie des problèmes.1. Partir de la tâche réelle
Avant d'ajouter des documents, il faut définir ce que le modèle doit produire, pour qui, dans quel format et selon quelles règles. Une information n'est pertinente que par rapport à une tâche précise.2. Sélectionner les sources utiles
Il vaut mieux transmettre trois extraits directement liés à la question que trente documents vaguement associés au sujet. La recherche documentaire doit tenir compte du sens, mais aussi de la date, de l'auteur, du statut du document et de sa version.3. Hiérarchiser les informations
Toutes les sources ne se valent pas. Une procédure interne validée doit, par exemple, primer sur un ancien compte rendu. Une grille tarifaire en vigueur doit être prioritaire sur un devis datant de trois ans. Cette hiérarchie doit être explicite.4. Charger les informations au bon moment
Un agent n'a pas besoin de recevoir l'intégralité d'une base documentaire dès son démarrage. Il peut d'abord recevoir la mission et les règles essentielles, puis rechercher les informations complémentaires au moment où elles deviennent nécessaires. Anthropic parle notamment de contexte fourni « juste à temps ».[2]5. Résumer ce qui s'accumule
Dans les interactions longues, conserver chaque message et chaque résultat d'outil finit par encombrer le contexte. Les décisions importantes, les points encore ouverts et les contraintes peuvent être regroupés dans une mémoire structurée. Les résultats intermédiaires devenus inutiles peuvent être supprimés ou compactés.6. Tracer ce qui a réellement été envoyé au modèle
Lorsqu'une réponse est incorrecte, il faut pouvoir reconstituer les informations dont disposait l'IA à ce moment précis. Sans cette traçabilité, les équipes modifient souvent le prompt au hasard alors que l'erreur provenait d'un document obsolète, d'une mauvaise recherche ou d'une information contradictoire.7. Tester le système, pas seulement le modèle
Un outil IA devrait être évalué sur des cas représentatifs de son utilisation réelle :- retrouve-t-il la bonne version d'un document ?
- respecte-t-il la priorité des sources ?
- conserve-t-il une décision importante après plusieurs échanges ?
- réagit-il correctement lorsqu'une information manque ?
- résiste-t-il aux documents contenant des instructions indésirables ?
Ce que cela change pour une entreprise
Le choix du modèle reste important. Certains modèles raisonnent mieux, acceptent davantage de contexte ou utilisent plus efficacement certains outils. Mais ce choix est rarement un avantage durable : les concurrents peuvent accéder aux mêmes technologies. La différence se construit plutôt dans la manière dont l'entreprise organise ses connaissances, sélectionne ses sources, définit ses règles, conserve sa mémoire et contrôle les actions confiées à l'IA. Le context engineering est donc beaucoup moins proche d'une astuce de rédaction que d'un travail réunissant :- l'ingénierie des données ;
- la gestion documentaire ;
- la conception fonctionnelle ;
- la sécurité ;
- la connaissance métier ;
- l'évaluation continue.
Sources
- Tobi Lütke et Andrej Karpathy, publications sur le context engineering, juin 2025, reprises par Simon Willison.
- Anthropic, Effective context engineering for AI agents, 29 septembre 2025.
- Nelson F. Liu et al., Lost in the Middle: How Language Models Use Long Contexts, TACL, volume 12, 2024.
- Kelly Hong, Anton Troynikov et Jeff Huber, Context Rot: How Increasing Input Tokens Impacts LLM Performance, rapport technique Chroma, juillet 2025.
- OWASP GenAI Security Project, LLM01:2025 Prompt Injection.
