Aller au contenu principal

Bayesian teaching : Google apprend aux LLM à douter

4 mars 2026 2 min de lecture Paul Forcadel
Bayesian teaching : Google apprend aux LLM à douter

Des LLM qui ne savent pas douter

Les grands modèles de langage excellent dans de nombreuses tâches, mais ils ont un angle mort : le raisonnement probabiliste. Face à l'incertitude, un LLM standard plafonne après la première interaction au lieu de mettre à jour ses croyances comme le ferait un raisonneur bayésien optimal. C'est le constat dressé par une équipe de Google Research dans un article publié dans Nature Communications et présenté sur le blog de Google le 4 mars 2026.

Imiter le raisonneur parfait

Les chercheurs Sjoerd van Steenkiste, Tal Linzen et leurs collègues (Linlu Qiu, Fei Sha, Kelsey Allen, Yoon Kim) proposent une méthode appelée Bayesian teaching. Au lieu d'entraîner un LLM sur les bonnes réponses (approche « oracle »), ils l'entraînent à imiter les prédictions intermédiaires d'un modèle bayésien optimal — celui qui applique correctement le théorème de Bayes pour ajuster ses probabilités à chaque nouvelle information.

Concrètement, l'équipe a utilisé une tâche de recommandation de vols en 5 rounds d'interaction avec 624 utilisateurs synthétiques. Le modèle doit deviner les préférences cachées de l'utilisateur au fil des échanges.

Des résultats supérieurs à l'entraînement classique

Le modèle Gemma 2 (9B) fine-tuné avec Bayesian teaching atteint 71 % de précision au round final, contre 64 % avec l'approche oracle. L'accord avec l'assistant bayésien optimal monte à 80 %. Les humains, eux, atteignent environ 70 % de cohérence — surpassant les LLM non entraînés mais restant en deçà du standard bayésien.

Le Bayesian teaching surpasse systématiquement l'Oracle teaching sur tous les modèles testés (Gemma, Qwen, Gemini 1.5 Pro).

Une généralisation remarquable

Le résultat le plus frappant : un modèle entraîné uniquement sur des recommandations de vols synthétiques transfère ses compétences à des domaines jamais vus. Sur la recommandation d'hôtels et le shopping en ligne, le modèle atteint 64 % de précision — sans aucun entraînement spécifique. Le plafond avec fine-tuning dédié est d'environ 75 %.

Pourquoi c'est important

Cette recherche montre que le raisonnement probabiliste n'est pas une capacité fixe des LLM : il peut être enseigné par l'exemple. Les implications sont considérables pour la fiabilité de l'IA, la réduction des hallucinations et les assistants qui doivent composer avec l'incertitude — du diagnostic médical à la finance en passant par la recommandation.

Partager cet article

Questions fréquentes

C'est une méthode d'entraînement qui consiste à faire imiter à un LLM les prédictions d'un modèle bayésien optimal, plutôt que de l'entraîner directement sur les bonnes réponses.
Les LLM standard plafonnent après la première interaction et ne mettent pas à jour leurs croyances face à de nouvelles informations, contrairement à un raisonneur bayésien qui ajuste ses probabilités en continu.
Le modèle Gemma 2 fine-tuné atteint 71 % de précision au round final (vs 64 % en entraînement classique) et 80 % d'accord avec le raisonneur bayésien optimal.
Oui. Entraîné uniquement sur des recommandations de vols, il atteint 64 % de précision sur des tâches d'hôtels et de shopping en ligne sans entraînement spécifique.

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Articles connexes

Parcourir par catégorie