L'IA qui prend la souris
OpenAI a lancé GPT-5.4 le 5 mars 2026, un modèle qui marque un tournant : pour la première fois, un modèle OpenAI peut contrôler nativement un ordinateur. Via des captures d'écran, GPT-5.4 interprète l'interface affichée et émet des commandes clavier et souris pour exécuter des tâches complexes sur plusieurs applications. Sur le benchmark OSWorld-Verified, le modèle atteint un taux de réussite de 75 %, dépassant pour la première fois la baseline humaine (72,4 %).
Trois variantes pour trois usages
GPT-5.4 se décline en trois versions :
- GPT-5.4 (standard) : disponible via l'API pour les développeurs
- GPT-5.4 Thinking : raisonnement approfondi, accessible aux abonnés Plus, Teams et Pro dans ChatGPT
- GPT-5.4 Pro : performances maximales, réservé aux plans Enterprise et Edu
L'API supporte un contexte de 1,05 million de tokens — le plus large de l'histoire d'OpenAI — permettant de traiter des documents massifs sans perte de contexte.
Tool Search : moins de tokens, plus d'efficacité
GPT-5.4 introduit le Tool Search, un système qui remplace les prompts système volumineux listant tous les outils disponibles. Le modèle reçoit une liste légère et cherche la définition d'un outil uniquement quand il en a besoin. Résultat : moins de tokens consommés, un cache mieux préservé, et des requêtes multi-outils plus rapides et moins chères.
33 % d'erreurs en moins
Côté fiabilité, GPT-5.4 réduit les hallucinations de 33 % par affirmation et de 18 % par réponse globale par rapport à GPT-5.2. Le modèle obtient 83 % sur le benchmark GDPval (travail de connaissance professionnelle) et des records sur WebArena Verified et le benchmark APEX-Agents de Mercor.
La course aux agents autonomes
Avec ce lancement, OpenAI passe du chatbot à l'agent autonome. GPT-5.4 intègre les forces de GPT-5.3-Codex pour le code et ajoute la capacité d'opérer physiquement sur un poste de travail. Le modèle se positionne comme un concurrent direct de Claude d'Anthropic, notamment sur les tâches documentaires et analytiques, avec un score de 87,3 % en modélisation de tableurs.
OpenAI formalise aussi la méthodologie OpenClaw (Open Agent Control) pour encadrer l'exécution de tâches continues sur plusieurs applications. Le message est clair : OpenAI ne veut plus être une fenêtre dans votre navigateur, mais le système d'exploitation lui-même.