Gemini Embedding 2 : Premier modèle d'embedding multimodal natif

Google DeepMind a lancé Gemini Embedding 2 en préversion publique, leur premier modèle d'embedding entièrement multimodal construit sur l'architecture Gemini. Contrairement aux modèles précédents uniquement textuels, celui-ci projette du texte, des images, des vidéos, de l'audio et des documents dans un espace d'embedding unique et unifié, capturant l'intention sémantique dans plus de 100 langues.

Détails techniques clés

Le modèle est disponible via l'API Gemini et Vertex AI, et prend en charge ces capacités spécifiques :

Texte : Prend en charge un contexte allant jusqu'à 8192 tokens d'entrée
Images : Traite jusqu'à 6 images par requête (formats PNG et JPEG)
Vidéos : Prend en charge jusqu'à 120 secondes de vidéo en entrée (formats MP4 et MOV)
Audio : Intègre et projette nativement l'audio sans nécessiter de transcriptions textuelles
Documents : Projette directement des PDF jusqu'à 6 pages

Au-delà du traitement de modalités individuelles, le modèle comprend nativement les entrées entrelacées, vous permettant de transmettre plusieurs modalités (par exemple, image + texte) dans une seule requête pour capturer des relations nuancées entre différents types de médias.

Dimensions de sortie flexibles

Gemini Embedding 2 intègre l'apprentissage de représentation Matryoshka (MRL), permettant des dimensions de sortie flexibles pouvant être réduites par rapport à la valeur par défaut de 3072. Cela permet aux développeurs d'équilibrer performance et coûts de stockage. Google recommande d'utiliser 3072, 1536 ou 768 dimensions pour une qualité optimale.

Intégration et cas d'utilisation

Le modèle est conçu pour des tâches multimodales en aval, notamment la Génération Augmentée par Récupération (RAG), la recherche sémantique, l'analyse des sentiments et le regroupement de données. Il est disponible via plusieurs plateformes :

API Gemini
Vertex AI
LangChain, LlamaIndex, Haystack
Bases de données vectorielles : Weaviate, QDrant, ChromaDB et Vector Search

Google fournit des notebooks Colab interactifs pour commencer avec les implémentations de l'API Gemini et de Vertex AI.

📖 Lire la source complète : HN AI Agents

Gemini Embedding 2 : Le premier modèle d'embedding multimodal natif de Google est sorti

Détails techniques clés

Dimensions de sortie flexibles

Intégration et cas d'utilisation

👀 See Also

La carte système de Claude Opus 4.6 révèle des résultats d'alignement préoccupants

GPT 5.5 contre Claude : Rapport de bataille de refactorisation d'un développeur

Claude Code v2.1.145 : liste des agents JSON, corrections de spans OTEL, correctif de sécurité et plus

Les manifestes ajoutent GitHub Copilot comme quatrième fournisseur d'IA pour le routage OpenClaw.