Aller au contenu principal

Gemini Embedding 2 : Google unifie texte, image et vidéo

15 mars 2026 2 min de lecture Paul Forcadel
Gemini Embedding 2 : Google unifie texte, image et vidéo

Google a lancé Gemini Embedding 2, son premier modèle d'embeddings multimodal, capable de traiter texte, images, vidéo, audio et PDF dans un espace vectoriel unifié. Cette brique technique, discrète mais fondamentale, change la donne pour la recherche sémantique et les bases de données vectorielles.

Un seul espace pour tous les formats

Jusqu'ici, les modèles d'embeddings traitaient chaque modalité séparément : un modèle pour le texte, un autre pour les images, un troisième pour l'audio. Gemini Embedding 2 unifie tout dans un même espace vectoriel. Concrètement, une requête textuelle peut retrouver une image, une séquence vidéo ou un extrait audio sémantiquement proche — sans conversion préalable.

Le modèle, disponible en preview via l'API Gemini sous le nom gemini-embedding-2-preview, supporte cinq types d'entrées : texte, image, vidéo, audio et documents PDF.

Pourquoi c'est important

Les embeddings multimodaux sont la brique invisible qui permet aux systèmes RAG (Retrieval-Augmented Generation) de fonctionner sur des données hétérogènes. Un agent IA pourra chercher dans une base contenant des rapports PDF, des enregistrements audio de réunions et des photos — et trouver les résultats pertinents quelle que soit la modalité.

Pour les développeurs, c'est un changement d'architecture : plus besoin de pipelines séparés par format. Un seul appel API suffit pour indexer n'importe quel type de contenu.

Le contexte : Gemini 3.1 et l'écosystème Google

Ce lancement accompagne la montée en puissance de l'écosystème Gemini 3.1. Google a récemment publié Gemini 3.1 Pro (n°1 sur 12 des 18 benchmarks suivis, 77,1 % sur ARC-AGI-2) et Gemini 3.1 Flash-Lite (0,25 $/M tokens en entrée) — le modèle d'efficacité de la série.

Avec Embedding 2, Google complète sa gamme : génération (Pro), efficacité (Flash-Lite) et indexation multimodale (Embedding 2). Un stack complet pour les applications IA d'entreprise.

Partager cet article

Questions fréquentes

C'est le premier modèle d'embeddings multimodal de Google. Il projette texte, images, vidéo, audio et PDF dans un espace vectoriel unifié, permettant la recherche sémantique entre formats.
Ils permettent à une requête textuelle de retrouver une image, une vidéo ou un audio sémantiquement proche. C'est la brique clé pour les systèmes RAG sur des données hétérogènes.
Le modèle est disponible en preview via l'API Gemini sous le nom gemini-embedding-2-preview. Il accepte cinq types d'entrées : texte, image, vidéo, audio et PDF.
Il complète l'écosystème Gemini 3.1 aux côtés de Pro (génération), Flash-Lite (efficacité) et Embedding 2 (indexation multimodale). Un stack complet pour les applications IA.

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Articles connexes

Parcourir par catégorie