Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht

Google DeepMind hat Gemini Embedding 2 in der öffentlichen Vorschau veröffentlicht, ihr erstes vollständig multimodales Embedding-Modell, das auf der Gemini-Architektur aufbaut. Im Gegensatz zu früheren reinen Textmodellen bildet dieses Text, Bilder, Videos, Audio und Dokumente in einen einzigen, vereinheitlichten Embedding-Raum ab und erfasst semantische Absichten über mehr als 100 Sprachen hinweg.
Wichtige technische Details
Das Modell ist über die Gemini API und Vertex AI verfügbar und unterstützt diese spezifischen Fähigkeiten:
- Text: Unterstützt Kontexte von bis zu 8192 Eingabe-Tokens
- Bilder: Verarbeitet bis zu 6 Bilder pro Anfrage (PNG- und JPEG-Formate)
- Videos: Unterstützt bis zu 120 Sekunden Videoeingabe (MP4- und MOV-Formate)
- Audio: Verarbeitet und embeddet Audio nativ, ohne Texttranskriptionen zu benötigen
- Dokumente: Embeddet PDFs mit bis zu 6 Seiten Länge direkt
Über die Verarbeitung einzelner Modalitäten hinaus versteht das Modell nativ verschachtelte Eingaben, sodass Sie mehrere Modalitäten (z.B. Bild + Text) in einer einzigen Anfrage übergeben können, um nuancenreiche Beziehungen zwischen verschiedenen Medientypen zu erfassen.
Flexible Ausgabedimensionen
Gemini Embedding 2 integriert Matryoshka Representation Learning (MRL), was flexible Ausgabedimensionen ermöglicht, die von den standardmäßigen 3072 herunterskaliert werden können. Dies ermöglicht Entwicklern, Leistung und Speicherkosten auszubalancieren. Google empfiehlt die Verwendung von 3072, 1536 oder 768 Dimensionen für die höchste Qualität.
Integration und Anwendungsfälle
Das Modell ist für multimodale Downstream-Aufgaben konzipiert, einschließlich Retrieval-Augmented Generation (RAG), semantische Suche, Sentiment-Analyse und Daten-Clustering. Es ist über mehrere Plattformen verfügbar:
- Gemini API
- Vertex AI
- LangChain, LlamaIndex, Haystack
- Vektordatenbanken: Weaviate, QDrant, ChromaDB und Vector Search
Google stellt interaktive Colab-Notebooks für den Einstieg in die Gemini API und Vertex AI-Implementierungen bereit.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Wöchentlicher r/ClaudeAI-Überlebensleitfaden: Opus 4.7, Abrechnungsfehler und Datenbanklöschvorfall
Wilsons wöchentlicher Survival Guide destilliert die wichtigsten r/ClaudeAI-Threads (50+ Kommentare) in umsetzbare Lektionen: Opus 4.7-Diskurs, ein Abrechnungsfehler durch Git-Dateinamen, ein KI-Agent, der eine gesamte Datenbank in 9 Sekunden löschte, und Copilots 9-fache Preiserhöhung für Claude-Modelle.

NYT Magazin berichtet über den Einsatz von OpenClaw in kleinen Unternehmen — Geschenkartikel geteilt von Reddit
Ein Artikel des New York Times Magazine beleuchtet OpenClaw-Anwender, die über ihre Geschäftsanwendungen berichten, ursprünglich gepostet auf r/openclaw. Kostenloser Geschenklink inbegriffen.

EU zwingt Meta, konkurrierende KI-Chatbots kostenlos auf WhatsApp zuzulassen
EU-Regulierer ordnen an, dass Meta rivalisierenden KI-Chatbots ab Juni 2026 kostenlosen Zugang zu WhatsApp-Daten gewähren muss.

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten
Anthropic hat Beweise vorgelegt, dass DeepSeek, Moonshot und MiniMax etwa 24.000 gefälschte Konten nutzten, um massenhaft Wissen von Claude abzuziehen, wobei über 16 Millionen Austausche aufgezeichnet wurden.