Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado

✍️ OpenClawRadar📅 Publicado: 11 de marzo de 2026🔗 Source
Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado
Ad

Google DeepMind ha lanzado Gemini Embedding 2 en vista previa pública, su primer modelo de incrustación completamente multimodal construido sobre la arquitectura Gemini. A diferencia de los modelos anteriores solo de texto, este mapea texto, imágenes, videos, audio y documentos en un único espacio de incrustación unificado, capturando la intención semántica en más de 100 idiomas.

Detalles Técnicos Clave

El modelo está disponible a través de la API Gemini y Vertex AI, y admite estas capacidades específicas:

  • Texto: Admite contexto de hasta 8192 tokens de entrada
  • Imágenes: Procesa hasta 6 imágenes por solicitud (formatos PNG y JPEG)
  • Videos: Admite hasta 120 segundos de video de entrada (formatos MP4 y MOV)
  • Audio: Ingresa e incrusta audio de forma nativa sin necesidad de transcripciones de texto
  • Documentos: Incrusta directamente PDF de hasta 6 páginas de longitud

Más allá de procesar modalidades individuales, el modelo comprende de forma nativa la entrada intercalada, permitiéndote pasar múltiples modalidades (por ejemplo, imagen + texto) en una sola solicitud para capturar relaciones matizadas entre diferentes tipos de medios.

Ad

Dimensiones de Salida Flexibles

Gemini Embedding 2 incorpora Aprendizaje de Representación Matryoshka (MRL), permitiendo dimensiones de salida flexibles que se reducen desde el valor predeterminado de 3072. Esto permite a los desarrolladores equilibrar el rendimiento y los costos de almacenamiento. Google recomienda usar dimensiones de 3072, 1536 o 768 para la más alta calidad.

Integración y Casos de Uso

El modelo está diseñado para tareas multimodales posteriores, incluyendo Generación Aumentada por Recuperación (RAG), búsqueda semántica, análisis de sentimientos y agrupación de datos. Está disponible a través de múltiples plataformas:

  • API Gemini
  • Vertex AI
  • LangChain, LlamaIndex, Haystack
  • Bases de datos vectoriales: Weaviate, QDrant, ChromaDB y Vector Search

Google proporciona cuadernos interactivos de Colab para comenzar con las implementaciones de la API Gemini y Vertex AI.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Los Modelos Qwen3 Small Ajustados Superan a los LLMs de Vanguardia en Tareas Específicas con Menor Costo
Noticias

Los Modelos Qwen3 Small Ajustados Superan a los LLMs de Vanguardia en Tareas Específicas con Menor Costo

Los modelos destilados Qwen3 (de 0.6B a 8B parámetros) igualaron o superaron a modelos API de vanguardia como GPT-5, Gemini y Claude en 6 de 9 tareas, incluyendo llamadas a funciones y Text2SQL, con un costo tan bajo como $3 por millón de solicitudes frente a $378 por un rendimiento comparable.

OpenClawRadar
Claude Code v2.1.117 Lanzamiento: Bifurcación de Subagentes, Mejoras en Complementos y Correcciones de Rendimiento
Noticias

Claude Code v2.1.117 Lanzamiento: Bifurcación de Subagentes, Mejoras en Complementos y Correcciones de Rendimiento

Claude Code v2.1.117 habilita subagentes bifurcados en compilaciones externas mediante CLAUDE_CODE_FORK_SUBAGENT=1, mejora el manejo de dependencias de complementos y corrige los cálculos de la ventana de contexto de Opus 4.7. La versión incluye un inicio más rápido con conexiones MCP concurrentes y reemplaza las herramientas Glob/Grep con bfs/ugrep integrados en macOS/Linux.

OpenClawRadar
Experiencia del desarrollador con Claude AI: De compañero de pensamiento a subcontratación cognitiva
Noticias

Experiencia del desarrollador con Claude AI: De compañero de pensamiento a subcontratación cognitiva

Un desarrollador comparte una experiencia de 8 meses usando Claude AI a diario, notando un cambio de usarlo para refinar pensamientos existentes a externalizar el pensamiento inicial por completo. La publicación describe dos enfoques cognitivos distintos: la IA como compañero de pensamiento versus la IA como generadora de primera pasada.

OpenClawRadar
Resultados de Referencia: Modelos Qwen3.5 en Apple Silicon frente a GPUs AMD con ROCm frente a Vulkan
Noticias

Resultados de Referencia: Modelos Qwen3.5 en Apple Silicon frente a GPUs AMD con ROCm frente a Vulkan

Un desarrollador evaluó los modelos Qwen3.5 (35B MoE, 27B denso, 122B MoE) en Macs con Apple Silicon y estaciones de trabajo con GPU AMD, comparando los backends ROCm y Vulkan mediante pruebas de escalado de contexto. El hardware incluyó M5 Max, M1 Max y tres GPU AMD con diferentes configuraciones PCIe.

OpenClawRadar