Gemini Embedding 2: Googles erstes nativ multimodales Modell

Google DeepMind hat Gemini Embedding 2 in der öffentlichen Vorschau veröffentlicht, ihr erstes vollständig multimodales Embedding-Modell, das auf der Gemini-Architektur aufbaut. Im Gegensatz zu früheren reinen Textmodellen bildet dieses Text, Bilder, Videos, Audio und Dokumente in einen einzigen, vereinheitlichten Embedding-Raum ab und erfasst semantische Absichten über mehr als 100 Sprachen hinweg.

Wichtige technische Details

Das Modell ist über die Gemini API und Vertex AI verfügbar und unterstützt diese spezifischen Fähigkeiten:

Text: Unterstützt Kontexte von bis zu 8192 Eingabe-Tokens
Bilder: Verarbeitet bis zu 6 Bilder pro Anfrage (PNG- und JPEG-Formate)
Videos: Unterstützt bis zu 120 Sekunden Videoeingabe (MP4- und MOV-Formate)
Audio: Verarbeitet und embeddet Audio nativ, ohne Texttranskriptionen zu benötigen
Dokumente: Embeddet PDFs mit bis zu 6 Seiten Länge direkt

Über die Verarbeitung einzelner Modalitäten hinaus versteht das Modell nativ verschachtelte Eingaben, sodass Sie mehrere Modalitäten (z.B. Bild + Text) in einer einzigen Anfrage übergeben können, um nuancenreiche Beziehungen zwischen verschiedenen Medientypen zu erfassen.

Flexible Ausgabedimensionen

Gemini Embedding 2 integriert Matryoshka Representation Learning (MRL), was flexible Ausgabedimensionen ermöglicht, die von den standardmäßigen 3072 herunterskaliert werden können. Dies ermöglicht Entwicklern, Leistung und Speicherkosten auszubalancieren. Google empfiehlt die Verwendung von 3072, 1536 oder 768 Dimensionen für die höchste Qualität.

Integration und Anwendungsfälle

Das Modell ist für multimodale Downstream-Aufgaben konzipiert, einschließlich Retrieval-Augmented Generation (RAG), semantische Suche, Sentiment-Analyse und Daten-Clustering. Es ist über mehrere Plattformen verfügbar:

Gemini API
Vertex AI
LangChain, LlamaIndex, Haystack
Vektordatenbanken: Weaviate, QDrant, ChromaDB und Vector Search

Google stellt interaktive Colab-Notebooks für den Einstieg in die Gemini API und Vertex AI-Implementierungen bereit.

📖 Read the full source: HN AI Agents

Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht

Wichtige technische Details

Flexible Ausgabedimensionen

Integration und Anwendungsfälle

👀 Siehe auch

Wöchentlicher r/ClaudeAI-Überlebensleitfaden: Opus 4.7, Abrechnungsfehler und Datenbanklöschvorfall

NYT Magazin berichtet über den Einsatz von OpenClaw in kleinen Unternehmen — Geschenkartikel geteilt von Reddit

EU zwingt Meta, konkurrierende KI-Chatbots kostenlos auf WhatsApp zuzulassen

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten