Gemini Embedding 2: Нативная мультимодальная модель эмбеддингов Google

Google DeepMind выпустила Gemini Embedding 2 в публичный предпросмотр — свою первую полностью мультимодальную модель эмбеддингов, построенную на архитектуре Gemini. В отличие от предыдущих моделей, работающих только с текстом, эта преобразует текст, изображения, видео, аудио и документы в единое, унифицированное пространство эмбеддингов, улавливая семантическое намерение на более чем 100 языках.

Ключевые технические детали

Модель доступна через Gemini API и Vertex AI и поддерживает следующие возможности:

Текст: Поддерживает контекст до 8192 входных токенов
Изображения: Обрабатывает до 6 изображений на запрос (форматы PNG и JPEG)
Видео: Поддерживает до 120 секунд видео (форматы MP4 и MOV)
Аудио: Нативно обрабатывает и создаёт эмбеддинги для аудио без необходимости текстовой транскрипции
Документы: Прямое создание эмбеддингов для PDF-файлов длиной до 6 страниц

Помимо обработки отдельных модальностей, модель нативно понимает чередующийся ввод, позволяя передавать несколько модальностей (например, изображение + текст) в одном запросе для улавливания тонких взаимосвязей между различными типами медиа.

Гибкие выходные размерности

Gemini Embedding 2 включает Matryoshka Representation Learning (MRL), что позволяет гибко масштабировать выходные размерности от стандартных 3072 вниз. Это позволяет разработчикам балансировать между производительностью и затратами на хранение. Google рекомендует использовать размерности 3072, 1536 или 768 для наивысшего качества.

Интеграция и варианты использования

Модель предназначена для мультимодальных задач, включая Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризацию данных. Она доступна через несколько платформ:

Gemini API
Vertex AI
LangChain, LlamaIndex, Haystack
Векторные базы данных: Weaviate, QDrant, ChromaDB и Vector Search

Google предоставляет интерактивные Colab-блокноты для начала работы с реализациями Gemini API и Vertex AI.

📖 Read the full source: HN AI Agents

Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google

Ключевые технические детали

Гибкие выходные размерности

Интеграция и варианты использования

👀 Смотрите также

Ошибка шаблона чата Gemma 4: Параметры инструментов с anyOf/null отображаются как пустой тип

Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.

Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов

Выпускники освистывают напутствия об ИИ на выпускных: признак настроений разработчиков