Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht

✍️ OpenClawRadar📅 Veröffentlicht: 11. März 2026🔗 Source
Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht
Ad

Google DeepMind hat Gemini Embedding 2 in der öffentlichen Vorschau veröffentlicht, ihr erstes vollständig multimodales Embedding-Modell, das auf der Gemini-Architektur aufbaut. Im Gegensatz zu früheren reinen Textmodellen bildet dieses Text, Bilder, Videos, Audio und Dokumente in einen einzigen, vereinheitlichten Embedding-Raum ab und erfasst semantische Absichten über mehr als 100 Sprachen hinweg.

Wichtige technische Details

Das Modell ist über die Gemini API und Vertex AI verfügbar und unterstützt diese spezifischen Fähigkeiten:

  • Text: Unterstützt Kontexte von bis zu 8192 Eingabe-Tokens
  • Bilder: Verarbeitet bis zu 6 Bilder pro Anfrage (PNG- und JPEG-Formate)
  • Videos: Unterstützt bis zu 120 Sekunden Videoeingabe (MP4- und MOV-Formate)
  • Audio: Verarbeitet und embeddet Audio nativ, ohne Texttranskriptionen zu benötigen
  • Dokumente: Embeddet PDFs mit bis zu 6 Seiten Länge direkt

Über die Verarbeitung einzelner Modalitäten hinaus versteht das Modell nativ verschachtelte Eingaben, sodass Sie mehrere Modalitäten (z.B. Bild + Text) in einer einzigen Anfrage übergeben können, um nuancenreiche Beziehungen zwischen verschiedenen Medientypen zu erfassen.

Ad

Flexible Ausgabedimensionen

Gemini Embedding 2 integriert Matryoshka Representation Learning (MRL), was flexible Ausgabedimensionen ermöglicht, die von den standardmäßigen 3072 herunterskaliert werden können. Dies ermöglicht Entwicklern, Leistung und Speicherkosten auszubalancieren. Google empfiehlt die Verwendung von 3072, 1536 oder 768 Dimensionen für die höchste Qualität.

Integration und Anwendungsfälle

Das Modell ist für multimodale Downstream-Aufgaben konzipiert, einschließlich Retrieval-Augmented Generation (RAG), semantische Suche, Sentiment-Analyse und Daten-Clustering. Es ist über mehrere Plattformen verfügbar:

  • Gemini API
  • Vertex AI
  • LangChain, LlamaIndex, Haystack
  • Vektordatenbanken: Weaviate, QDrant, ChromaDB und Vector Search

Google stellt interaktive Colab-Notebooks für den Einstieg in die Gemini API und Vertex AI-Implementierungen bereit.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch