Gemini Embedding 2: O Primeiro Modelo de Embedding Nativamente Multimodal da Google Lançado

O Google DeepMind lançou o Gemini Embedding 2 em prévia pública, seu primeiro modelo de embedding totalmente multimodal construído na arquitetura Gemini. Diferente dos modelos anteriores apenas de texto, este mapeia texto, imagens, vídeos, áudio e documentos em um único espaço de embedding unificado, capturando a intenção semântica em mais de 100 idiomas.
Principais Detalhes Técnicos
O modelo está disponível através da API Gemini e Vertex AI, e suporta estas capacidades específicas:
- Texto: Suporta contexto de até 8192 tokens de entrada
- Imagens: Processa até 6 imagens por solicitação (formatos PNG e JPEG)
- Vídeos: Suporta até 120 segundos de entrada de vídeo (formatos MP4 e MOV)
- Áudio: Ingesta e incorpora áudio nativamente sem precisar de transcrições de texto
- Documentos: Incorpora diretamente PDFs de até 6 páginas
Além de processar modalidades individuais, o modelo compreende nativamente entrada intercalada, permitindo que você passe múltiplas modalidades (por exemplo, imagem + texto) em uma única solicitação para capturar relações sutis entre diferentes tipos de mídia.
Dimensões de Saída Flexíveis
O Gemini Embedding 2 incorpora o Aprendizado de Representação Matryoshka (MRL), permitindo dimensões de saída flexíveis que escalam a partir do padrão 3072. Isso permite que os desenvolvedores equilibrem desempenho e custos de armazenamento. O Google recomenda usar 3072, 1536 ou 768 dimensões para a mais alta qualidade.
Integração e Casos de Uso
O modelo é projetado para tarefas multimodais subsequentes, incluindo Geração Aumentada por Recuperação (RAG), busca semântica, análise de sentimentos e agrupamento de dados. Está disponível através de múltiplas plataformas:
- API Gemini
- Vertex AI
- LangChain, LlamaIndex, Haystack
- Bancos de dados vetoriais: Weaviate, QDrant, ChromaDB e Vector Search
O Google fornece notebooks interativos do Colab para começar com as implementações da API Gemini e Vertex AI.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Plano Claude Max 20x: Aumentos de Limite Não Aplicados Apesar dos Anúncios — Usuário Confirma com Matemática
Um usuário pagante do Claude Max 20x ($200/mês) relata que os aumentos de limite de 2x por sessão e 1,5x semanal anunciados pela Anthropic não foram aplicados à sua conta. Ele fornece prova matemática e compartilha a completa falta de resposta do suporte.

A Anthropic adquire a Vercept AI para aprimorar as capacidades de uso de computador do Claude
A Anthropic adquiriu a Vercept AI para trabalhar em recursos de uso de computador para o Claude. A aquisição se concentra em resolver problemas de percepção e interação para tornar a IA mais útil para tarefas complexas.

Autoajuste Supervisionado Próprio em Erros Próprios Impulsiona Modelos Pequenos a 80% no HumanEval
Um desenvolvedor treinou o Qwen 2.5 7B em seus próprios pares de código gerados automaticamente, alcançando 112/164 no HumanEval (+87 problemas) sem nenhum dado de treinamento escrito por humanos. A abordagem é transferível para o Llama 3.2 3B e o Qwen 3 4B.

Anthropic dobra limites de taxa do Claude Code e fecha acordo de computação com a SpaceX
Os limites de taxa de cinco horas do Claude Code foram dobrados para os planos Pro/Max/Team/Enterprise, as reduções de horário de pico foram removidas e os limites de taxa da API foram aumentados para modelos Opus. O Colossus 1 da SpaceX adiciona mais de 300 MW de capacidade (220 mil GPUs NVIDIA) em um mês.