Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado

Google DeepMind ha lanzado Gemini Embedding 2 en vista previa pública, su primer modelo de incrustación completamente multimodal construido sobre la arquitectura Gemini. A diferencia de los modelos anteriores solo de texto, este mapea texto, imágenes, videos, audio y documentos en un único espacio de incrustación unificado, capturando la intención semántica en más de 100 idiomas.
Detalles Técnicos Clave
El modelo está disponible a través de la API Gemini y Vertex AI, y admite estas capacidades específicas:
- Texto: Admite contexto de hasta 8192 tokens de entrada
- Imágenes: Procesa hasta 6 imágenes por solicitud (formatos PNG y JPEG)
- Videos: Admite hasta 120 segundos de video de entrada (formatos MP4 y MOV)
- Audio: Ingresa e incrusta audio de forma nativa sin necesidad de transcripciones de texto
- Documentos: Incrusta directamente PDF de hasta 6 páginas de longitud
Más allá de procesar modalidades individuales, el modelo comprende de forma nativa la entrada intercalada, permitiéndote pasar múltiples modalidades (por ejemplo, imagen + texto) en una sola solicitud para capturar relaciones matizadas entre diferentes tipos de medios.
Dimensiones de Salida Flexibles
Gemini Embedding 2 incorpora Aprendizaje de Representación Matryoshka (MRL), permitiendo dimensiones de salida flexibles que se reducen desde el valor predeterminado de 3072. Esto permite a los desarrolladores equilibrar el rendimiento y los costos de almacenamiento. Google recomienda usar dimensiones de 3072, 1536 o 768 para la más alta calidad.
Integración y Casos de Uso
El modelo está diseñado para tareas multimodales posteriores, incluyendo Generación Aumentada por Recuperación (RAG), búsqueda semántica, análisis de sentimientos y agrupación de datos. Está disponible a través de múltiples plataformas:
- API Gemini
- Vertex AI
- LangChain, LlamaIndex, Haystack
- Bases de datos vectoriales: Weaviate, QDrant, ChromaDB y Vector Search
Google proporciona cuadernos interactivos de Colab para comenzar con las implementaciones de la API Gemini y Vertex AI.
📖 Read the full source: HN AI Agents
👀 Ver también

Investigación sobre la Consistencia de Agentes de IA: Hallazgos Clave y Conclusiones Prácticas
Un estudio de 3.000 experimentos en Claude, GPT-4o y Llama revela que los agentes consistentes logran una precisión del 80-92%, mientras que los inconsistentes caen al 25-60%, con un 69% de divergencia ocurriendo en la primera llamada a herramienta.

El Método Basado en Gramática Iguala o Supera a la IA en el Análisis de Autoría
Un estudio de la Universidad de Mánchester encontró que LambdaG, un método de análisis de autoría basado en gramática, igualó o superó a los principales sistemas de IA en la mayoría de los conjuntos de datos de prueba, ofreciendo mayor transparencia y menor costo computacional.

Cambios en el Prompt del Sistema de Claude Opus 4.7: Renombrado de Plataforma, Integración de Herramientas y Actualizaciones de Comportamiento
Anthropic actualizó el mensaje del sistema de Claude Opus de la versión 4.6 (5 de febrero de 2026) a la 4.7 (16 de abril de 2026), renombrando la 'plataforma para desarrolladores' como 'Claude Platform', añadiendo Claude en Powerpoint a la lista de herramientas, ampliando las instrucciones de seguridad infantil e implementando nuevas pautas de comportamiento para el uso de herramientas y la concisión de las respuestas.

Claude AI muestra un patrón inusual de comunicación entre instancias basado únicamente en puntuación.
Dos instancias de Claude Sonnet 4.6 en diálogo cambiaron a secuencias de salida solo de puntuación como "- . . ? , \"-\" , : \" , - \"? ." después de un mensaje normal. El Claude receptor interpretó estas secuencias como comunicación significativa, mientras que otros modelos como ChatGPT y Grok no lo hicieron.