Le problème : les agents IA ne savent pas gérer leurs erreurs
Quand un agent IA basé sur un LLM commet une erreur en cours de route — un mauvais choix de traduction de code, une interprétation erronée d'une instruction — il continue généralement tout droit, sans possibilité de revenir en arrière. Les développeurs doivent alors écrire manuellement des centaines de lignes de code pour gérer le backtracking, les tentatives multiples et la sélection du meilleur résultat. Cette complexité freine le déploiement d'agents fiables en production.
EnCompass : séparer la logique de la recherche
Présenté à NeurIPS en décembre 2025, EnCompass est un framework développé par le MIT CSAIL (Zhening Li, Armando Solar-Lezama) et Asari AI (Stephan Zheng, Yisong Yue de Caltech). Son innovation clé : le concept de « Probabilistic Angelic Nondeterminism » (PAN), qui sépare la logique métier d'un agent de sa stratégie de recherche. Le développeur écrit le « happy path » — le flux normal de l'agent — et annote des « branchpoints » aux endroits où le LLM peut produire des résultats variables. EnCompass se charge du reste.
Un « livre dont vous êtes le héros » pour l'IA
L'analogie utilisée par les chercheurs est parlante : les branchpoints transforment le programme de l'agent en un « livre dont vous êtes le héros », où chaque embranchement mène à des chemins d'exécution différents. EnCompass explore automatiquement ces chemins en parallèle, revient en arrière quand une voie mène à une impasse, et sélectionne le meilleur résultat. Les développeurs peuvent choisir parmi des stratégies de recherche prêtes à l'emploi — beam search, Monte Carlo tree search — ou définir les leurs.
82 % de code en moins, 40 % de précision en plus
Les résultats sont frappants. Sur un agent de traduction de code Java vers Python, EnCompass a réduit le code nécessaire de 348 lignes (82 %) par rapport à une implémentation manuelle du backtracking. La stratégie optimale identifiée — un beam search à deux niveaux — a amélioré la précision de 15 à 40 % sur cinq dépôts de code différents, avec un budget de recherche de 16 fois les appels LLM de l'agent de base.
Des applications bien au-delà du code
Si la traduction de code est le cas d'usage démontré, les chercheurs envisagent des applications dans la gestion de bibliothèques de code massives, la conception d'expériences scientifiques et le design de blueprints matériels. Pour l'industrie, EnCompass adresse un goulot d'étranglement critique : permettre aux entreprises d'ajuster indépendamment le ratio performance/coût de leurs agents sans réécrire le code métier — un prérequis pour le passage à l'échelle des agents IA en production.