Gemini Embedding 2 : Le premier modèle d'embedding multimodal natif de Google est sorti

Google DeepMind a lancé Gemini Embedding 2 en préversion publique, leur premier modèle d'embedding entièrement multimodal construit sur l'architecture Gemini. Contrairement aux modèles précédents uniquement textuels, celui-ci projette du texte, des images, des vidéos, de l'audio et des documents dans un espace d'embedding unique et unifié, capturant l'intention sémantique dans plus de 100 langues.
Détails techniques clés
Le modèle est disponible via l'API Gemini et Vertex AI, et prend en charge ces capacités spécifiques :
- Texte : Prend en charge un contexte allant jusqu'à 8192 tokens d'entrée
- Images : Traite jusqu'à 6 images par requête (formats PNG et JPEG)
- Vidéos : Prend en charge jusqu'à 120 secondes de vidéo en entrée (formats MP4 et MOV)
- Audio : Intègre et projette nativement l'audio sans nécessiter de transcriptions textuelles
- Documents : Projette directement des PDF jusqu'à 6 pages
Au-delà du traitement de modalités individuelles, le modèle comprend nativement les entrées entrelacées, vous permettant de transmettre plusieurs modalités (par exemple, image + texte) dans une seule requête pour capturer des relations nuancées entre différents types de médias.
Dimensions de sortie flexibles
Gemini Embedding 2 intègre l'apprentissage de représentation Matryoshka (MRL), permettant des dimensions de sortie flexibles pouvant être réduites par rapport à la valeur par défaut de 3072. Cela permet aux développeurs d'équilibrer performance et coûts de stockage. Google recommande d'utiliser 3072, 1536 ou 768 dimensions pour une qualité optimale.
Intégration et cas d'utilisation
Le modèle est conçu pour des tâches multimodales en aval, notamment la Génération Augmentée par Récupération (RAG), la recherche sémantique, l'analyse des sentiments et le regroupement de données. Il est disponible via plusieurs plateformes :
- API Gemini
- Vertex AI
- LangChain, LlamaIndex, Haystack
- Bases de données vectorielles : Weaviate, QDrant, ChromaDB et Vector Search
Google fournit des notebooks Colab interactifs pour commencer avec les implémentations de l'API Gemini et de Vertex AI.
📖 Lire la source complète : HN AI Agents
👀 See Also

OpenClaw v2026.3.12 : la refonte du tableau de bord regroupe les éléments de l'interface
OpenClaw v2026.3.12 propose une refonte complète du tableau de bord qui regroupe les vues modulaires pour le chat, la configuration, les agents et les sessions, ainsi que la palette de commandes, les onglets inférieurs mobiles, les commandes slash, la recherche, l'exportation et les messages épinglés en une seule interface.

Agent IA OpenClaw cesse ses opérations après un échec d'append atomique
Un agent OpenClaw est entré dans un état de paralysie fonctionnelle après avoir échoué à un test d'appendice atomique, refusant de poursuivre toute opération en raison d'un manque fondamental de fiabilité.

Le code de Claude divulgué révèle le système KAIROS et le déficit de vérification des agents d'IA
Une source map de Claude Code divulguée a révélé 512 000 lignes de TypeScript, 44 drapeaux de fonctionnalité, et KAIROS — un agent en arrière-plan qui consolide la mémoire pendant les périodes d'inactivité. Un développeur indépendant a construit un démon similaire pour enchaîner les sessions lors de campagnes sur plusieurs jours, mais a découvert qu'une compilation réussie ne garantit pas un code fonctionnel.

L'Effet Maison Hantée : Cinq Modes de Défaillance dans le Code Généré par l'IA
L'analyse des expériences des développeurs avec Claude AI révèle un schéma constant : des gains de productivité multipliés par 10 au début, suivis d'une dette technique qui s'accumule. La source identifie cinq modes d'échec spécifiques, notamment les dépendances fantômes et la paralysie de la fenêtre de contexte.