Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google

Google DeepMind выпустила Gemini Embedding 2 в публичный предпросмотр — свою первую полностью мультимодальную модель эмбеддингов, построенную на архитектуре Gemini. В отличие от предыдущих моделей, работающих только с текстом, эта преобразует текст, изображения, видео, аудио и документы в единое, унифицированное пространство эмбеддингов, улавливая семантическое намерение на более чем 100 языках.
Ключевые технические детали
Модель доступна через Gemini API и Vertex AI и поддерживает следующие возможности:
- Текст: Поддерживает контекст до 8192 входных токенов
- Изображения: Обрабатывает до 6 изображений на запрос (форматы PNG и JPEG)
- Видео: Поддерживает до 120 секунд видео (форматы MP4 и MOV)
- Аудио: Нативно обрабатывает и создаёт эмбеддинги для аудио без необходимости текстовой транскрипции
- Документы: Прямое создание эмбеддингов для PDF-файлов длиной до 6 страниц
Помимо обработки отдельных модальностей, модель нативно понимает чередующийся ввод, позволяя передавать несколько модальностей (например, изображение + текст) в одном запросе для улавливания тонких взаимосвязей между различными типами медиа.
Гибкие выходные размерности
Gemini Embedding 2 включает Matryoshka Representation Learning (MRL), что позволяет гибко масштабировать выходные размерности от стандартных 3072 вниз. Это позволяет разработчикам балансировать между производительностью и затратами на хранение. Google рекомендует использовать размерности 3072, 1536 или 768 для наивысшего качества.
Интеграция и варианты использования
Модель предназначена для мультимодальных задач, включая Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризацию данных. Она доступна через несколько платформ:
- Gemini API
- Vertex AI
- LangChain, LlamaIndex, Haystack
- Векторные базы данных: Weaviate, QDrant, ChromaDB и Vector Search
Google предоставляет интерактивные Colab-блокноты для начала работы с реализациями Gemini API и Vertex AI.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Mistral AI приобретает Emmi AI для создания промышленного инженерного ИИ-стека.
Mistral AI приобретает Emmi AI, объединяя модели физики ИИ для промышленного моделирования в энергетике, автомобилестроении, полупроводниковой и аэрокосмической отраслях. Объединенная команда из более чем 30 исследователей откроет новый офис в Линце.

Локальная LLM не справляется с пасьянсом в Unreal Engine: Qwen 3.6-27B сжигает 687 тысяч токенов на одну карту
Попытка разработчика создать игру «Пасьянс» в Unreal Engine с помощью Qwen 3.6-27B потребовала 687 тысяч токенов для одной карты, что потребовало ручной загрузки PNG, создания сетки и интенсивных подсказок.

Изучение n8n как альтернативы OpenClaw Skills для автоматизации
Сообщество OpenClaw на Reddit обсуждает плюсы и минусы использования n8n вместо OpenClaw Skills для автоматизации задач. Ключевые темы обсуждения включают удобство использования, гибкость и примеры практического применения.

Почему активирующее управление Anthropic испытывает трудности с генерацией корректного JSON
Метод активации управления, используемый для безопасности ИИ, не способен генерировать действительный JSON, достигая лишь 24,4% валидности по сравнению с 86,8% у необученной базовой модели.