Un modèle taillé pour le volume
Google DeepMind lance Gemini 3.1 Flash-Lite en preview le 3 mars 2026. L'objectif : proposer le modèle le plus rapide et le moins cher de la gamme Gemini 3, destiné aux tâches à haut volume comme la traduction, la classification et la génération de dashboards.
Avec un prix de 0,25 $ par million de tokens en entrée et 1,50 $ en sortie, Flash-Lite coûte 8 fois moins que Gemini 3.1 Pro (2 $ / 18 $). C'est le positionnement le plus agressif de Google sur le segment low-cost.
Performances et benchmarks
Malgré son prix plancher, Flash-Lite ne sacrifie pas la qualité. Le modèle domine 6 des 11 benchmarks testés, devançant GPT-5 mini d'OpenAI et Claude 4.5 Haiku d'Anthropic. Sur l'Artificial Analysis Intelligence Index, il obtient un score de 34 (#20 sur 134 modèles) — bien au-dessus de la médiane de 19 pour sa gamme de prix.
Côté vitesse, Flash-Lite génère 293 tokens par seconde (4e mondial) et affiche un temps de premier token 2,5 fois plus rapide que Gemini 2.5 Flash. Google revendique une génération 45 % plus rapide que son prédécesseur.
Architecture et capacités
Flash-Lite repose sur l'architecture mixture-of-experts de Gemini 3 Pro, entraîné sur les TPUs de Google avec JAX et ML Pathways. Le modèle est multimodal natif : il traite texte, images, audio et vidéo avec une fenêtre de 1 million de tokens en entrée et 64 000 tokens en sortie.
Nouveau : le modèle supporte le raisonnement configurable — on peut choisir entre quatre niveaux de réflexion (minimal, low, medium, high) selon le compromis vitesse/qualité souhaité.
Disponibilité
Flash-Lite est disponible en preview via l'API Gemini, Google AI Studio et Vertex AI. Il n'est pas encore accessible dans l'application grand public Gemini. Google le positionne clairement pour les développeurs et les entreprises qui traitent de gros volumes de requêtes à moindre coût.