Des LLM qui ne savent pas douter
Les grands modèles de langage excellent dans de nombreuses tâches, mais ils ont un angle mort : le raisonnement probabiliste. Face à l'incertitude, un LLM standard plafonne après la première interaction au lieu de mettre à jour ses croyances comme le ferait un raisonneur bayésien optimal. C'est le constat dressé par une équipe de Google Research dans un article publié dans Nature Communications et présenté sur le blog de Google le 4 mars 2026.
Imiter le raisonneur parfait
Les chercheurs Sjoerd van Steenkiste, Tal Linzen et leurs collègues (Linlu Qiu, Fei Sha, Kelsey Allen, Yoon Kim) proposent une méthode appelée Bayesian teaching. Au lieu d'entraîner un LLM sur les bonnes réponses (approche « oracle »), ils l'entraînent à imiter les prédictions intermédiaires d'un modèle bayésien optimal — celui qui applique correctement le théorème de Bayes pour ajuster ses probabilités à chaque nouvelle information.
Concrètement, l'équipe a utilisé une tâche de recommandation de vols en 5 rounds d'interaction avec 624 utilisateurs synthétiques. Le modèle doit deviner les préférences cachées de l'utilisateur au fil des échanges.
Des résultats supérieurs à l'entraînement classique
Le modèle Gemma 2 (9B) fine-tuné avec Bayesian teaching atteint 71 % de précision au round final, contre 64 % avec l'approche oracle. L'accord avec l'assistant bayésien optimal monte à 80 %. Les humains, eux, atteignent environ 70 % de cohérence — surpassant les LLM non entraînés mais restant en deçà du standard bayésien.
Le Bayesian teaching surpasse systématiquement l'Oracle teaching sur tous les modèles testés (Gemma, Qwen, Gemini 1.5 Pro).
Une généralisation remarquable
Le résultat le plus frappant : un modèle entraîné uniquement sur des recommandations de vols synthétiques transfère ses compétences à des domaines jamais vus. Sur la recommandation d'hôtels et le shopping en ligne, le modèle atteint 64 % de précision — sans aucun entraînement spécifique. Le plafond avec fine-tuning dédié est d'environ 75 %.
Pourquoi c'est important
Cette recherche montre que le raisonnement probabiliste n'est pas une capacité fixe des LLM : il peut être enseigné par l'exemple. Les implications sont considérables pour la fiabilité de l'IA, la réduction des hallucinations et les assistants qui doivent composer avec l'incertitude — du diagnostic médical à la finance en passant par la recommandation.