Context engineering : le prompt parfait ne sauvera pas votre IA

19/06/2026

-

À retenir

  • Le prompt ne suffit plus : ce qui décide de la qualité d'une réponse, c'est surtout tout ce que le modèle voit autour de la question, c'est-à-dire son contexte.
  • Une grande fenêtre de contexte n'est pas une garantie : trop d'information peut dégrader la réponse. L'objectif n'est pas d'en mettre moins, mais d'en mettre du pertinent.
  • L'avantage durable n'est pas le modèle, vos concurrents ont les mêmes, mais votre façon d'organiser, dater, hiérarchiser et sécuriser ce que l'IA a sous les yeux.
Imaginez la scène. La démonstration est impeccable. L'assistant IA répond au quart de tour, retrouve les bons chiffres et formule des recommandations qui donnent presque envie de lui offrir un bureau. Le client est convaincu. Trois semaines plus tard, en conditions réelles, le même outil ressort un ancien tarif, oublie une consigne donnée dix minutes plus tôt et cite un document qui n'est même plus à jour. Personne n'a touché au prompt. Il est toujours aussi bien écrit. Le problème est ailleurs. Le scénario est fictif. Le mécanisme, lui, est parfaitement réel : une IA peut recevoir une excellente instruction et produire malgré tout une mauvaise réponse parce qu'on lui a fourni les mauvaises informations, au mauvais moment ou dans un joyeux désordre. Pendant plusieurs années, la compétence vedette de l'intelligence artificielle générative s'est appelée le prompt engineering. Il fallait trouver la bonne formulation, préciser le rôle du modèle, détailler le résultat attendu et ajouter quelques exemples. Tout cela reste utile. Mais ce n'est plus suffisant. Désormais, les concepteurs d'outils IA parlent de plus en plus de context engineering, ou ingénierie du contexte. Le sujet n'est plus seulement de savoir comment parler au modèle. Il faut organiser tout ce qu'il devra voir avant de pouvoir répondre correctement. Et la nuance change à peu près tout.

Du prompt engineering au context engineering

Le terme « context engineering » ne semble pas être né en une seule publication parfaitement identifiable. Il s'est cependant imposé dans le débat au cours de l'été 2025. Tobi Lütke, dirigeant de Shopify, le présentait comme « l'art de fournir tout le contexte nécessaire pour qu'une tâche puisse raisonnablement être résolue par un LLM ». Andrej Karpathy, cofondateur d'OpenAI et ancien directeur de l'intelligence artificielle chez Tesla, a ensuite largement relayé cette idée : dans une application professionnelle, le véritable travail consiste à remplir la fenêtre de contexte avec les bonnes informations pour l'étape suivante.[1] Le 29 septembre 2025, Anthropic consacrait à son tour une publication complète à l'ingénierie du contexte pour les agents IA. L'entreprise la décrivait comme l'évolution naturelle du prompt engineering : on ne cherche plus uniquement à rédiger de bonnes instructions, mais à sélectionner et maintenir l'ensemble optimal d'informations disponibles au moment où le modèle travaille.[2] Il ne s'agit donc pas de remplacer un mot à la mode par un autre. Le prompt reste important. Il devient simplement une pièce d'un système beaucoup plus vaste.
Prompt engineeringContext engineering
Comment formuler la demande ?Que doit savoir le modèle pour traiter la demande ?
Travaille surtout sur les instructionsTravaille sur l'ensemble des informations disponibles
Cherche à améliorer une interactionCherche à fiabiliser tout un système
Se concentre sur les motsS'intéresse aussi aux données, aux outils, à la mémoire et aux sources

Le contexte, c'est quoi exactement ?

Un grand maître d'échecs fait face à un plateau encombré de pièces et d'informations provenant de jeux différents. Lorsque vous écrivez une question dans un outil utilisant un grand modèle de langage, celui-ci ne voit pas nécessairement votre seule question. Selon la manière dont l'application a été conçue, il peut également recevoir :
  • les instructions générales définies par le concepteur ;
  • l'historique de la conversation ;
  • des informations concernant l'utilisateur ;
  • des documents retrouvés dans une base de connaissances ;
  • des exemples de réponses attendues ;
  • la liste des outils qu'il peut utiliser ;
  • les résultats de ses précédentes actions ;
  • des notes ou résumés conservés en mémoire ;
  • des règles métier, des métadonnées ou des contraintes de sécurité.
Tout cela forme son contexte de travail. L'image la plus simple consiste à traiter le modèle comme un collègue extrêmement rapide et cultivé, mais qui arrive amnésique à chaque nouvelle réunion. Vous pouvez lui jeter un classeur de mille pages sur la table en lui disant que « tout est dedans ». Il trouvera peut-être la réponse. Il peut aussi se perdre dans les annexes, confondre deux versions d'un document ou accorder trop d'importance à une information secondaire. Vous pouvez également lui préparer un briefing de trois pages contenant la décision à prendre, les données réellement utiles, les règles à respecter et ce qui a déjà été décidé. Dans le second cas, vous ne lui avez pas donné davantage d'informations. Vous lui avez donné de meilleures chances de bien travailler. C'est exactement le rôle du context engineering.

Pourquoi le sujet devient-il si important maintenant ?

Trois évolutions se produisent en parallèle. D'abord, les modèles peuvent accepter des volumes de texte de plus en plus importants. Les fenêtres de contexte se comptent désormais parfois en centaines de milliers, voire en millions de tokens. Ensuite, les entreprises utilisent couramment des systèmes de RAG, pour Retrieval-Augmented Generation. Au lieu de se contenter des connaissances apprises pendant son entraînement, le modèle recherche des documents dans une base puis les utilise pour construire sa réponse. Enfin, les agents IA ne réalisent plus seulement une génération isolée. Ils peuvent rechercher une information, consulter un fichier, appeler un outil, analyser le résultat, modifier leur plan puis recommencer. Chaque action produit de nouvelles informations. Chaque information peut être ajoutée au contexte suivant. Sans mécanisme de sélection, l'agent accumule alors les résultats de recherche, les messages précédents, les erreurs, les fichiers consultés et les sorties de ses outils. Au bout d'un moment, sa mémoire de travail ressemble moins à un bureau bien rangé qu'au tiroir dans lequel on range les câbles « qui pourront peut-être servir un jour ».

Une grande fenêtre de contexte ne garantit pas une bonne réponse

La confusion la plus fréquente consiste à penser qu'une grande fenêtre permet d'envoyer davantage de documents sans avoir à faire de tri. Malheureusement, la capacité théorique d'un modèle à accepter du texte ne garantit pas qu'il saura utiliser chaque information avec la même précision. L'étude Lost in the Middle, diffusée initialement en 2023 puis publiée en 2024 dans la revue Transactions of the Association for Computational Linguistics, a étudié la manière dont plusieurs modèles exploitaient de longs contextes.[3] Les chercheurs ont notamment constaté que leurs performances étaient souvent meilleures lorsque l'information pertinente apparaissait au début ou à la fin du contexte. Elles diminuaient lorsqu'elle se trouvait au milieu, y compris pour des modèles spécialement conçus pour accepter de longues entrées. En juillet 2025, Chroma a prolongé cette réflexion en testant 18 modèles, parmi lesquels des modèles des familles GPT, Claude, Gemini et Qwen.[4] Ce travail est un rapport technique et non un article académique évalué par les pairs. Il faut donc éviter de lui faire dire davantage que ce qu'il démontre. Ses résultats restent néanmoins intéressants : sur plusieurs tâches contrôlées, les performances devenaient moins régulières à mesure que la quantité de contexte augmentait. L'un des tests s'appuyait sur un jeu de données destiné à évaluer la mémoire conversationnelle. Les chercheurs ont comparé :
  • une version ciblée contenant uniquement les éléments nécessaires, d'environ 300 tokens en moyenne ;
  • une version complète de l'historique, d'environ 113 000 tokens en moyenne.
Les modèles testés obtenaient systématiquement de meilleurs résultats avec le contexte ciblé. Avec l'historique complet, ils devaient d'abord retrouver l'information pertinente au milieu d'une masse de contenu, puis raisonner à partir de celle-ci. Une étape supplémentaire, et autant d'occasions de se tromper. La conclusion n'est pas qu'il faut bannir les longs contextes. Ils sont indispensables pour certaines tâches.
Une archive monumentale cache un dossier essentiel au milieu de milliers de documents presque identiques.
Elle est plus simple : une fenêtre de contexte est une capacité de stockage, pas une garantie de compréhension.

Le contexte ne doit pas seulement être court. Il doit être pertinent.

Dire « mettons moins de tokens » serait encore trop simpliste. Un contexte très court mais incomplet produira évidemment de mauvaises réponses. L'objectif consiste à trouver le plus petit ensemble d'informations permettant au modèle d'accomplir correctement la tâche. Prenons un assistant chargé de préparer une proposition commerciale. L'entreprise possède :
  • une grille tarifaire de 2024 ;
  • une grille tarifaire de 2026 ;
  • un modèle de contrat ;
  • plusieurs comptes rendus d'échanges avec le prospect ;
  • une documentation technique ;
  • des dizaines d'anciens devis ;
  • les conditions particulières négociées avec ce client.
Une approche naïve consiste à tout envoyer au modèle. Une approche plus rigoureuse consiste à identifier la grille tarifaire en vigueur, à retrouver uniquement les échanges concernant le prospect, à sélectionner les pages pertinentes de la documentation et à préciser quelles sources doivent être prioritaires en cas de contradiction. Le modèle n'a alors pas seulement reçu des documents. Il a reçu un contexte organisé, daté, hiérarchisé et adapté à la tâche. Voilà la différence entre brancher une IA sur une base documentaire et concevoir un véritable outil professionnel.

C'est aussi une question de sécurité

Un cheval de Troie en papier s'introduit dans une salle d'archives numériques sous l'apparence d'un document. Le contexte ne contient pas toujours des informations fiables. Un agent peut lire une page web, un courrier électronique, un PDF envoyé par un client ou un document récupéré automatiquement. Or, ces contenus peuvent intégrer des instructions malveillantes destinées à influencer son comportement. C'est ce que l'on appelle une injection de prompt indirecte. Une instruction dissimulée dans une page pourrait, par exemple, demander à l'agent d'ignorer ses règles, d'utiliser un outil auquel il a accès ou de révéler certaines informations. L'OWASP classe l'injection de prompt parmi les principaux risques de sécurité des applications reposant sur des modèles de langage. L'organisation rappelle également que le RAG ou l'entraînement complémentaire d'un modèle ne suffisent pas à supprimer ce risque.[5] L'ingénierie du contexte doit donc également permettre de distinguer :
  • les instructions de confiance ;
  • les données fournies par l'utilisateur ;
  • les documents issus de sources internes ;
  • les contenus externes potentiellement hostiles ;
  • les actions que le modèle peut proposer ;
  • les actions qu'il est réellement autorisé à exécuter.
Une information peut être pertinente sans être digne de confiance. Et un modèle qui peut lire un document ne devrait pas automatiquement obéir à tout ce qui est écrit dedans.

Comment améliorer concrètement le contexte d'une IA ?

Il n'existe pas de recette universelle, mais plusieurs réflexes permettent déjà d'éviter une bonne partie des problèmes.

1. Partir de la tâche réelle

Avant d'ajouter des documents, il faut définir ce que le modèle doit produire, pour qui, dans quel format et selon quelles règles. Une information n'est pertinente que par rapport à une tâche précise.

2. Sélectionner les sources utiles

Il vaut mieux transmettre trois extraits directement liés à la question que trente documents vaguement associés au sujet. La recherche documentaire doit tenir compte du sens, mais aussi de la date, de l'auteur, du statut du document et de sa version.

3. Hiérarchiser les informations

Toutes les sources ne se valent pas. Une procédure interne validée doit, par exemple, primer sur un ancien compte rendu. Une grille tarifaire en vigueur doit être prioritaire sur un devis datant de trois ans. Cette hiérarchie doit être explicite.

4. Charger les informations au bon moment

Un agent n'a pas besoin de recevoir l'intégralité d'une base documentaire dès son démarrage. Il peut d'abord recevoir la mission et les règles essentielles, puis rechercher les informations complémentaires au moment où elles deviennent nécessaires. Anthropic parle notamment de contexte fourni « juste à temps ».[2]

5. Résumer ce qui s'accumule

Dans les interactions longues, conserver chaque message et chaque résultat d'outil finit par encombrer le contexte. Les décisions importantes, les points encore ouverts et les contraintes peuvent être regroupés dans une mémoire structurée. Les résultats intermédiaires devenus inutiles peuvent être supprimés ou compactés.

6. Tracer ce qui a réellement été envoyé au modèle

Lorsqu'une réponse est incorrecte, il faut pouvoir reconstituer les informations dont disposait l'IA à ce moment précis. Sans cette traçabilité, les équipes modifient souvent le prompt au hasard alors que l'erreur provenait d'un document obsolète, d'une mauvaise recherche ou d'une information contradictoire.

7. Tester le système, pas seulement le modèle

Un outil IA devrait être évalué sur des cas représentatifs de son utilisation réelle :
  • retrouve-t-il la bonne version d'un document ?
  • respecte-t-il la priorité des sources ?
  • conserve-t-il une décision importante après plusieurs échanges ?
  • réagit-il correctement lorsqu'une information manque ?
  • résiste-t-il aux documents contenant des instructions indésirables ?
Changer de modèle ne corrigera pas une base mal organisée ni un système de recherche qui remonte les mauvais documents. Une mallette transparente ne contient que les documents, règles et outils utiles à une mission confiée à une IA.

Ce que cela change pour une entreprise

Le choix du modèle reste important. Certains modèles raisonnent mieux, acceptent davantage de contexte ou utilisent plus efficacement certains outils. Mais ce choix est rarement un avantage durable : les concurrents peuvent accéder aux mêmes technologies. La différence se construit plutôt dans la manière dont l'entreprise organise ses connaissances, sélectionne ses sources, définit ses règles, conserve sa mémoire et contrôle les actions confiées à l'IA. Le context engineering est donc beaucoup moins proche d'une astuce de rédaction que d'un travail réunissant :
  • l'ingénierie des données ;
  • la gestion documentaire ;
  • la conception fonctionnelle ;
  • la sécurité ;
  • la connaissance métier ;
  • l'évaluation continue.
Il possède également un avantage très concret : retirer les informations inutiles réduit généralement la quantité de tokens traités, donc les coûts et la latence. Cela ne suffit évidemment pas à calculer l'empreinte environnementale complète d'un outil IA. Mais, à modèle et infrastructure comparables, ne pas faire traiter inutilement des milliers de tokens reste préférable à les envoyer « au cas où ». Pour une fois, sobriété, performance et maîtrise des coûts peuvent avancer dans la même direction. Chez Prism', lorsque nous réfléchissons à l'intégration de l'intelligence artificielle dans un projet numérique, la première question ne devrait donc pas être : « Quel modèle allons-nous utiliser ? » Il faut d'abord demander : Quelles informations devra-t-il recevoir, de quelles sources, à quel moment, sous quelle forme et avec quels contrôles ? Parce que le meilleur modèle du marché, plongé dans un mauvais contexte, restera parfaitement capable de répondre avec assurance… à côté de la question. Et dans vos propres outils IA, savez-vous précisément ce qui entre dans la fenêtre de contexte avant chaque réponse ?

Sources

  1. Tobi Lütke et Andrej Karpathy, publications sur le context engineering, juin 2025, reprises par Simon Willison.
  2. Anthropic, Effective context engineering for AI agents, 29 septembre 2025.
  3. Nelson F. Liu et al., Lost in the Middle: How Language Models Use Long Contexts, TACL, volume 12, 2024.
  4. Kelly Hong, Anton Troynikov et Jeff Huber, Context Rot: How Increasing Input Tokens Impacts LLM Performance, rapport technique Chroma, juillet 2025.
  5. OWASP GenAI Security Project, LLM01:2025 Prompt Injection.

Nouveautés chez nous

Un chef d'orchestre dirige des documents, des horloges et des outils désordonnés malgré une partition parfaite.

Context engineering : le prompt parfait ne sauvera pas votre IA

Lire plus
Illustration stylisée représentant la transition entre SEO traditionnel et GEO (IA)

GEO : comment être visible pour les IA… sans être expert SEO

Lire plus
Illustration stylisée représentant le concept de SEO en couleurs.

Choisir la bonne agence SEO : les clés du succès

Lire plus
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram