Google a lancé Gemini Embedding 2, son premier modèle d'embeddings multimodal, capable de traiter texte, images, vidéo, audio et PDF dans un espace vectoriel unifié. Cette brique technique, discrète mais fondamentale, change la donne pour la recherche sémantique et les bases de données vectorielles.
Un seul espace pour tous les formats
Jusqu'ici, les modèles d'embeddings traitaient chaque modalité séparément : un modèle pour le texte, un autre pour les images, un troisième pour l'audio. Gemini Embedding 2 unifie tout dans un même espace vectoriel. Concrètement, une requête textuelle peut retrouver une image, une séquence vidéo ou un extrait audio sémantiquement proche — sans conversion préalable.
Le modèle, disponible en preview via l'API Gemini sous le nom gemini-embedding-2-preview, supporte cinq types d'entrées : texte, image, vidéo, audio et documents PDF.
Pourquoi c'est important
Les embeddings multimodaux sont la brique invisible qui permet aux systèmes RAG (Retrieval-Augmented Generation) de fonctionner sur des données hétérogènes. Un agent IA pourra chercher dans une base contenant des rapports PDF, des enregistrements audio de réunions et des photos — et trouver les résultats pertinents quelle que soit la modalité.
Pour les développeurs, c'est un changement d'architecture : plus besoin de pipelines séparés par format. Un seul appel API suffit pour indexer n'importe quel type de contenu.
Le contexte : Gemini 3.1 et l'écosystème Google
Ce lancement accompagne la montée en puissance de l'écosystème Gemini 3.1. Google a récemment publié Gemini 3.1 Pro (n°1 sur 12 des 18 benchmarks suivis, 77,1 % sur ARC-AGI-2) et Gemini 3.1 Flash-Lite (0,25 $/M tokens en entrée) — le modèle d'efficacité de la série.
Avec Embedding 2, Google complète sa gamme : génération (Pro), efficacité (Flash-Lite) et indexation multimodale (Embedding 2). Un stack complet pour les applications IA d'entreprise.