Gemini Embedding 2: Google Lança Modelo de Embedding Multimodal

O Google DeepMind lançou o Gemini Embedding 2 em prévia pública, seu primeiro modelo de embedding totalmente multimodal construído na arquitetura Gemini. Diferente dos modelos anteriores apenas de texto, este mapeia texto, imagens, vídeos, áudio e documentos em um único espaço de embedding unificado, capturando a intenção semântica em mais de 100 idiomas.

Principais Detalhes Técnicos

O modelo está disponível através da API Gemini e Vertex AI, e suporta estas capacidades específicas:

Texto: Suporta contexto de até 8192 tokens de entrada
Imagens: Processa até 6 imagens por solicitação (formatos PNG e JPEG)
Vídeos: Suporta até 120 segundos de entrada de vídeo (formatos MP4 e MOV)
Áudio: Ingesta e incorpora áudio nativamente sem precisar de transcrições de texto
Documentos: Incorpora diretamente PDFs de até 6 páginas

Além de processar modalidades individuais, o modelo compreende nativamente entrada intercalada, permitindo que você passe múltiplas modalidades (por exemplo, imagem + texto) em uma única solicitação para capturar relações sutis entre diferentes tipos de mídia.

Dimensões de Saída Flexíveis

O Gemini Embedding 2 incorpora o Aprendizado de Representação Matryoshka (MRL), permitindo dimensões de saída flexíveis que escalam a partir do padrão 3072. Isso permite que os desenvolvedores equilibrem desempenho e custos de armazenamento. O Google recomenda usar 3072, 1536 ou 768 dimensões para a mais alta qualidade.

Integração e Casos de Uso

O modelo é projetado para tarefas multimodais subsequentes, incluindo Geração Aumentada por Recuperação (RAG), busca semântica, análise de sentimentos e agrupamento de dados. Está disponível através de múltiplas plataformas:

API Gemini
Vertex AI
LangChain, LlamaIndex, Haystack
Bancos de dados vetoriais: Weaviate, QDrant, ChromaDB e Vector Search

O Google fornece notebooks interativos do Colab para começar com as implementações da API Gemini e Vertex AI.

📖 Leia a fonte completa: HN AI Agents

Gemini Embedding 2: O Primeiro Modelo de Embedding Nativamente Multimodal da Google Lançado

Principais Detalhes Técnicos

Dimensões de Saída Flexíveis

Integração e Casos de Uso

👀 See Also

Estratégia de pesos abertos da Mistral: avaliação de US$ 14 bi em soberania, não em benchmarks

Falhas de Conexão com Claude para Organizações que Bloqueiam o GitHub por Endereço IP

NVIDIA Lança Nemotron-3-Ultra-550B: 55B Parâmetros Ativos, 1M de Contexto, Híbrido LatentMoE

Claude Code v2.1.191: /rewind, correções de CPU, melhorias de confiabilidade do MCP