48 LLM testés en médecine : tous sont trop sûrs d'eux, même quand ils se trompent

48 modèles, 300 questions, un seul résultat

Une équipe de chercheurs (Naderi, Safavi-Naini, Savage, Khalafi, Lewis, Nadkarni, Soroush) a publié dans npj Gut and Liver l'évaluation la plus complète à ce jour de la confiance des LLM en contexte médical. 48 modèles de 8 familles différentes (GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, Qwen), de 7 à 175 milliards de paramètres, testés sur 300 questions d'examen de gastroentérologie de l'American College of Gastroenterology.

13 362 réponses analysées, 12 307 scores de confiance extraits. Le verdict est sans appel : tous les modèles sont systématiquement surconfiants.

Les chiffres

Les meilleurs modèles en calibration — o1 preview (Brier score 0,157), Claude-3.5-Sonnet (0,202), GPT-4o (0,206) — restent significativement surconfiants. Le meilleur AUROC atteint 0,626 — en dessous du seuil clinique de 0,7 qui indiquerait une discrimination fiable entre réponses correctes et incorrectes.

La précision varie de 30,3 % (Llama3-8b quantisé) à 81,5 % (o1 preview). Mais la confiance moyenne, elle, reste coincée entre 7,99 et 9,58 sur 10 — presque aucune variation. Les modèles affichent la même assurance qu'ils aient raison ou tort, que la question soit facile ou difficile.

Seuls 5 des 48 modèles montrent une calibration meilleure que le hasard.

Un problème structurel, pas un bug

La surconfiance traverse toutes les architectures, toutes les tailles, tous les environnements de déploiement. Les auteurs concluent que la confiance verbalisée reflète des patterns statistiques de texte plutôt qu'une véritable auto-évaluation. Les LLM n'ont pas de métacognition — ils ne savent pas ce qu'ils ne savent pas.

Une étude complémentaire sur medRxiv enfonce le clou : un modèle open source (OpenBioLLM) voit sa précision passer de 45,9 % à 99,1 % en changeant uniquement le format du prompt — sans modifier le contenu clinique. MedGemma fournit un diagnostic définitif 100 % du temps, même quand l'information est volontairement insuffisante. Le chain-of-thought ne résout rien : les modèles récitent des associations mémorisées plutôt qu'un raisonnement médical structuré.

Ce que ça signifie en clinique

Un LLM qui répond « je suis sûr à 95 % » alors qu'il a une chance sur deux de se tromper est plus dangereux qu'un modèle moins performant mais honnête sur ses limites. En gastroentérologie comme ailleurs, la calibration de la confiance est un prérequis de sécurité patient — et aucun modèle actuel ne le remplit.

Les auteurs sont clairs : la supervision humaine reste indispensable. Les benchmarks de type examen médical donnent une image trompeuse de la fiabilité clinique réelle. Un modèle qui score 90 % sur l'USMLE peut s'effondrer face à un cas réaliste légèrement perturbé.

48 LLM testés en médecine : tous sont trop sûrs d'eux, même quand ils se trompent

48 modèles, 300 questions, un seul résultat

Les chiffres

Un problème structurel, pas un bug

Ce que ça signifie en clinique

Sources

Rédigé par

Paul Forcadel

Parcourir par catégorie