Gemini Embedding 2: Modelo de Incrustación Multimodal de Google

Google DeepMind ha lanzado Gemini Embedding 2 en vista previa pública, su primer modelo de incrustación completamente multimodal construido sobre la arquitectura Gemini. A diferencia de los modelos anteriores solo de texto, este mapea texto, imágenes, videos, audio y documentos en un único espacio de incrustación unificado, capturando la intención semántica en más de 100 idiomas.

Detalles Técnicos Clave

El modelo está disponible a través de la API Gemini y Vertex AI, y admite estas capacidades específicas:

Texto: Admite contexto de hasta 8192 tokens de entrada
Imágenes: Procesa hasta 6 imágenes por solicitud (formatos PNG y JPEG)
Videos: Admite hasta 120 segundos de video de entrada (formatos MP4 y MOV)
Audio: Ingresa e incrusta audio de forma nativa sin necesidad de transcripciones de texto
Documentos: Incrusta directamente PDF de hasta 6 páginas de longitud

Más allá de procesar modalidades individuales, el modelo comprende de forma nativa la entrada intercalada, permitiéndote pasar múltiples modalidades (por ejemplo, imagen + texto) en una sola solicitud para capturar relaciones matizadas entre diferentes tipos de medios.

Dimensiones de Salida Flexibles

Gemini Embedding 2 incorpora Aprendizaje de Representación Matryoshka (MRL), permitiendo dimensiones de salida flexibles que se reducen desde el valor predeterminado de 3072. Esto permite a los desarrolladores equilibrar el rendimiento y los costos de almacenamiento. Google recomienda usar dimensiones de 3072, 1536 o 768 para la más alta calidad.

Integración y Casos de Uso

El modelo está diseñado para tareas multimodales posteriores, incluyendo Generación Aumentada por Recuperación (RAG), búsqueda semántica, análisis de sentimientos y agrupación de datos. Está disponible a través de múltiples plataformas:

API Gemini
Vertex AI
LangChain, LlamaIndex, Haystack
Bases de datos vectoriales: Weaviate, QDrant, ChromaDB y Vector Search

Google proporciona cuadernos interactivos de Colab para comenzar con las implementaciones de la API Gemini y Vertex AI.

📖 Read the full source: HN AI Agents

Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado

Detalles Técnicos Clave

Dimensiones de Salida Flexibles

Integración y Casos de Uso

👀 Ver también

Los Modelos Qwen3 Small Ajustados Superan a los LLMs de Vanguardia en Tareas Específicas con Menor Costo

Claude Code v2.1.117 Lanzamiento: Bifurcación de Subagentes, Mejoras en Complementos y Correcciones de Rendimiento

Experiencia del desarrollador con Claude AI: De compañero de pensamiento a subcontratación cognitiva

Resultados de Referencia: Modelos Qwen3.5 en Apple Silicon frente a GPUs AMD con ROCm frente a Vulkan