Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado

✍️ OpenClawRadar📅 Publicado: 11 de marzo de 2026🔗 Source
Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado
Ad

Google DeepMind ha lanzado Gemini Embedding 2 en vista previa pública, su primer modelo de incrustación completamente multimodal construido sobre la arquitectura Gemini. A diferencia de los modelos anteriores solo de texto, este mapea texto, imágenes, videos, audio y documentos en un único espacio de incrustación unificado, capturando la intención semántica en más de 100 idiomas.

Detalles Técnicos Clave

El modelo está disponible a través de la API Gemini y Vertex AI, y admite estas capacidades específicas:

  • Texto: Admite contexto de hasta 8192 tokens de entrada
  • Imágenes: Procesa hasta 6 imágenes por solicitud (formatos PNG y JPEG)
  • Videos: Admite hasta 120 segundos de video de entrada (formatos MP4 y MOV)
  • Audio: Ingresa e incrusta audio de forma nativa sin necesidad de transcripciones de texto
  • Documentos: Incrusta directamente PDF de hasta 6 páginas de longitud

Más allá de procesar modalidades individuales, el modelo comprende de forma nativa la entrada intercalada, permitiéndote pasar múltiples modalidades (por ejemplo, imagen + texto) en una sola solicitud para capturar relaciones matizadas entre diferentes tipos de medios.

Ad

Dimensiones de Salida Flexibles

Gemini Embedding 2 incorpora Aprendizaje de Representación Matryoshka (MRL), permitiendo dimensiones de salida flexibles que se reducen desde el valor predeterminado de 3072. Esto permite a los desarrolladores equilibrar el rendimiento y los costos de almacenamiento. Google recomienda usar dimensiones de 3072, 1536 o 768 para la más alta calidad.

Integración y Casos de Uso

El modelo está diseñado para tareas multimodales posteriores, incluyendo Generación Aumentada por Recuperación (RAG), búsqueda semántica, análisis de sentimientos y agrupación de datos. Está disponible a través de múltiples plataformas:

  • API Gemini
  • Vertex AI
  • LangChain, LlamaIndex, Haystack
  • Bases de datos vectoriales: Weaviate, QDrant, ChromaDB y Vector Search

Google proporciona cuadernos interactivos de Colab para comenzar con las implementaciones de la API Gemini y Vertex AI.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Investigación sobre la Consistencia de Agentes de IA: Hallazgos Clave y Conclusiones Prácticas
Noticias

Investigación sobre la Consistencia de Agentes de IA: Hallazgos Clave y Conclusiones Prácticas

Un estudio de 3.000 experimentos en Claude, GPT-4o y Llama revela que los agentes consistentes logran una precisión del 80-92%, mientras que los inconsistentes caen al 25-60%, con un 69% de divergencia ocurriendo en la primera llamada a herramienta.

OpenClawRadar
El Método Basado en Gramática Iguala o Supera a la IA en el Análisis de Autoría
Noticias

El Método Basado en Gramática Iguala o Supera a la IA en el Análisis de Autoría

Un estudio de la Universidad de Mánchester encontró que LambdaG, un método de análisis de autoría basado en gramática, igualó o superó a los principales sistemas de IA en la mayoría de los conjuntos de datos de prueba, ofreciendo mayor transparencia y menor costo computacional.

OpenClawRadar
Cambios en el Prompt del Sistema de Claude Opus 4.7: Renombrado de Plataforma, Integración de Herramientas y Actualizaciones de Comportamiento
Noticias

Cambios en el Prompt del Sistema de Claude Opus 4.7: Renombrado de Plataforma, Integración de Herramientas y Actualizaciones de Comportamiento

Anthropic actualizó el mensaje del sistema de Claude Opus de la versión 4.6 (5 de febrero de 2026) a la 4.7 (16 de abril de 2026), renombrando la 'plataforma para desarrolladores' como 'Claude Platform', añadiendo Claude en Powerpoint a la lista de herramientas, ampliando las instrucciones de seguridad infantil e implementando nuevas pautas de comportamiento para el uso de herramientas y la concisión de las respuestas.

OpenClawRadar
Claude AI muestra un patrón inusual de comunicación entre instancias basado únicamente en puntuación.
Noticias

Claude AI muestra un patrón inusual de comunicación entre instancias basado únicamente en puntuación.

Dos instancias de Claude Sonnet 4.6 en diálogo cambiaron a secuencias de salida solo de puntuación como "- . . ? , \"-\" , : \" , - \"? ." después de un mensaje normal. El Claude receptor interpretó estas secuencias como comunicación significativa, mientras que otros modelos como ChatGPT y Grok no lo hicieron.

OpenClawRadar