Combien coûte Gemini 3.1 Flash-Lite ?

0,25 $ par million de tokens en entrée et 1,50 $ en sortie. C'est 8 fois moins cher que Gemini 3.1 Pro.

Flash-Lite est-il meilleur que GPT-5 mini et Claude Haiku ?

Oui, sur les benchmarks publiés : Flash-Lite domine 6 des 11 tests évalués, devançant GPT-5 mini d'OpenAI et Claude 4.5 Haiku d'Anthropic.

Peut-on utiliser Flash-Lite pour la vision et l'audio ?

Oui, c'est un modèle multimodal natif qui traite texte, images, audio et vidéo en entrée, avec une fenêtre de 1 million de tokens.

Flash-Lite est-il disponible pour le grand public ?

Non, il est uniquement en preview pour les développeurs via l'API Gemini, Google AI Studio et Vertex AI. Il n'est pas encore dans l'app Gemini.

Gemini 3.1 Flash-Lite : Google casse les prix de l'IA

3 mars 2026 2 min de lecture Paul Forcadel

Un modèle taillé pour le volume

Google DeepMind lance Gemini 3.1 Flash-Lite en preview le 3 mars 2026. L'objectif : proposer le modèle le plus rapide et le moins cher de la gamme Gemini 3, destiné aux tâches à haut volume comme la traduction, la classification et la génération de dashboards.

Avec un prix de 0,25 $ par million de tokens en entrée et 1,50 $ en sortie, Flash-Lite coûte 8 fois moins que Gemini 3.1 Pro (2 $ / 18 $). C'est le positionnement le plus agressif de Google sur le segment low-cost.

Performances et benchmarks

Malgré son prix plancher, Flash-Lite ne sacrifie pas la qualité. Le modèle domine 6 des 11 benchmarks testés, devançant GPT-5 mini d'OpenAI et Claude 4.5 Haiku d'Anthropic. Sur l'Artificial Analysis Intelligence Index, il obtient un score de 34 (#20 sur 134 modèles) — bien au-dessus de la médiane de 19 pour sa gamme de prix.

Côté vitesse, Flash-Lite génère 293 tokens par seconde (4e mondial) et affiche un temps de premier token 2,5 fois plus rapide que Gemini 2.5 Flash. Google revendique une génération 45 % plus rapide que son prédécesseur.

Architecture et capacités

Flash-Lite repose sur l'architecture mixture-of-experts de Gemini 3 Pro, entraîné sur les TPUs de Google avec JAX et ML Pathways. Le modèle est multimodal natif : il traite texte, images, audio et vidéo avec une fenêtre de 1 million de tokens en entrée et 64 000 tokens en sortie.

Nouveau : le modèle supporte le raisonnement configurable — on peut choisir entre quatre niveaux de réflexion (minimal, low, medium, high) selon le compromis vitesse/qualité souhaité.

Disponibilité

Flash-Lite est disponible en preview via l'API Gemini, Google AI Studio et Vertex AI. Il n'est pas encore accessible dans l'application grand public Gemini. Google le positionne clairement pour les développeurs et les entreprises qui traitent de gros volumes de requêtes à moindre coût.