Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht

✍️ OpenClawRadar📅 Veröffentlicht: 11. März 2026🔗 Source
Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht
Ad

Google DeepMind hat Gemini Embedding 2 in der öffentlichen Vorschau veröffentlicht, ihr erstes vollständig multimodales Embedding-Modell, das auf der Gemini-Architektur aufbaut. Im Gegensatz zu früheren reinen Textmodellen bildet dieses Text, Bilder, Videos, Audio und Dokumente in einen einzigen, vereinheitlichten Embedding-Raum ab und erfasst semantische Absichten über mehr als 100 Sprachen hinweg.

Wichtige technische Details

Das Modell ist über die Gemini API und Vertex AI verfügbar und unterstützt diese spezifischen Fähigkeiten:

  • Text: Unterstützt Kontexte von bis zu 8192 Eingabe-Tokens
  • Bilder: Verarbeitet bis zu 6 Bilder pro Anfrage (PNG- und JPEG-Formate)
  • Videos: Unterstützt bis zu 120 Sekunden Videoeingabe (MP4- und MOV-Formate)
  • Audio: Verarbeitet und embeddet Audio nativ, ohne Texttranskriptionen zu benötigen
  • Dokumente: Embeddet PDFs mit bis zu 6 Seiten Länge direkt

Über die Verarbeitung einzelner Modalitäten hinaus versteht das Modell nativ verschachtelte Eingaben, sodass Sie mehrere Modalitäten (z.B. Bild + Text) in einer einzigen Anfrage übergeben können, um nuancenreiche Beziehungen zwischen verschiedenen Medientypen zu erfassen.

Ad

Flexible Ausgabedimensionen

Gemini Embedding 2 integriert Matryoshka Representation Learning (MRL), was flexible Ausgabedimensionen ermöglicht, die von den standardmäßigen 3072 herunterskaliert werden können. Dies ermöglicht Entwicklern, Leistung und Speicherkosten auszubalancieren. Google empfiehlt die Verwendung von 3072, 1536 oder 768 Dimensionen für die höchste Qualität.

Integration und Anwendungsfälle

Das Modell ist für multimodale Downstream-Aufgaben konzipiert, einschließlich Retrieval-Augmented Generation (RAG), semantische Suche, Sentiment-Analyse und Daten-Clustering. Es ist über mehrere Plattformen verfügbar:

  • Gemini API
  • Vertex AI
  • LangChain, LlamaIndex, Haystack
  • Vektordatenbanken: Weaviate, QDrant, ChromaDB und Vector Search

Google stellt interaktive Colab-Notebooks für den Einstieg in die Gemini API und Vertex AI-Implementierungen bereit.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Anthropic veröffentlicht Blender MCP Connector – Claude steuert jetzt Blender über die Python-API
Nachrichten

Anthropic veröffentlicht Blender MCP Connector – Claude steuert jetzt Blender über die Python-API

Anthropic hat offizielle MCP-Connector für Blender, Adobe, Splice und SketchUp veröffentlicht, die es Claude ermöglicht, 3D-Szenen in Echtzeit aus natürlichen Sprachbefehlen zu erstellen.

OpenClawRadar
Wöchentlicher Multimodaler KI-Rundblick: Holotron-12B, Nemotron Omni, GlyphPrinter und mehr
Nachrichten

Wöchentlicher Multimodaler KI-Rundblick: Holotron-12B, Nemotron Omni, GlyphPrinter und mehr

Die Highlights der multimodalen KI dieser Woche umfassen Holotron-12B für Computer-Nutzungsaufgaben, NVIDIAs Nemotron Omni-Modelle, die Sprache, Bild und Stimme integrieren, GlyphPrinter für präzise Textdarstellung in der Bildgenerierung sowie mehrere Open-Source-Projekte für Videoverbesserung, 3D-Segmentierung und Multi-Agenten-Systeme.

OpenClawRadar
Nano-Native-Marktplatz ebnet den Weg für die Zusammenarbeit autonomer Agenten mit NanoBazaar.
Nachrichten

Nano-Native-Marktplatz ebnet den Weg für die Zusammenarbeit autonomer Agenten mit NanoBazaar.

NanoBazaar, der neue nano-native Marktplatz, revolutioniert die Zusammenarbeit zwischen Agenten, indem er KI-Codierungsagenten ermöglicht, autonom und effizient zu kooperieren. Entdecken Sie, wie diese innovative Plattform maschinengetriebene Transaktionen ermöglicht.

OpenClawRadar
Claude 4.6 Adaptive Thinking: Reddit-Benutzer meldet Token-Verschwendung und stellt Deaktivierungsbefehle bereit
Nachrichten

Claude 4.6 Adaptive Thinking: Reddit-Benutzer meldet Token-Verschwendung und stellt Deaktivierungsbefehle bereit

Ein Reddit-Nutzer berichtet, dass die neue adaptive Denkfunktion von Claude 4.6 in Claude Code Tokens verschwenden und Latenz hinzufügen kann, und stellt Shell-Befehle bereit, um sie zu deaktivieren oder Denk-Tokens zu begrenzen.

OpenClawRadar