Un problème à 250 millions de dollars
Les hallucinations des LLMs — ces réponses fluides mais fausses — coûtent cher. Les rapports industriels estiment les pertes à plus de 250 millions de dollars par an. Dans les domaines critiques (santé, finance, juridique), la fiabilité devient non négociable.
Les chiffres qui font mal
Les études récentes révèlent des taux d'hallucination préoccupants :
| Modèle | Taux d'hallucination |
|---|---|
| GPT-3.5 | 39,6% |
| GPT-4 | 28,6% |
| Bard (médical) | 91,4% |
Même GPT-4 affiche seulement 13,4% de précision sur la récupération de références. Le problème reste massif.
Taxonomie des hallucinations
Microsoft identifie six types : factuelles, temporelles, contextuelles, linguistiques, extrinsèques et intrinsèques. Cette classification guide les stratégies de mitigation.
L'arsenal des solutions
1. RAG (Retrieval-Augmented Generation)
La technique dominante : ancrer les réponses dans des documents externes vérifiables. Microsoft recommande :
- Curation des données avec audits réguliers
- Optimisation de la recherche (hybride keyword/vector)
- Reranking des résultats
2. Prompt Engineering structuré
La méthode ICE de Microsoft :
- Instructions : requêtes directes et spécifiques
- Contraintes : limites claires ("uniquement depuis les docs récupérés")
- Escalade : comportements de repli ("Dis 'je ne sais pas' si incertain")
Le Chain-of-Thought réduit les hallucinations de 38,3% à 18,1% sur certains modèles.
3. Systèmes agentiques
La nouvelle frontière : combiner RAG et raisonnement dans des pipelines autonomes. Ces systèmes distinguent :
- Hallucinations de connaissance → traitées par RAG
- Hallucinations de logique → traitées par amélioration du raisonnement
4. Détection multi-modèle
Utiliser plusieurs LLMs d'architectures différentes pour évaluer les mêmes outputs. Le consensus augmente la confiance.
Le cadre d'attribution
Une avancée clé : distinguer si l'hallucination vient du prompt ou du modèle.
- LLaMA 2 : sensible aux prompts → amélioration via prompt engineering
- DeepSeek 67B : hallucinations persistantes → nécessite des améliorations architecturales
Conclusion
Aucune technique n'élimine totalement les hallucinations. La recherche recommande des pipelines hybrides combinant prompting structuré, RAG et vérification post-génération. L'objectif a évolué : non plus supprimer les hallucinations, mais équilibrer créativité et fiabilité.