Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google

✍️ OpenClawRadar📅 Опубликовано: 11 марта 2026 г.🔗 Source
Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google
Ad

Google DeepMind выпустила Gemini Embedding 2 в публичный предпросмотр — свою первую полностью мультимодальную модель эмбеддингов, построенную на архитектуре Gemini. В отличие от предыдущих моделей, работающих только с текстом, эта преобразует текст, изображения, видео, аудио и документы в единое, унифицированное пространство эмбеддингов, улавливая семантическое намерение на более чем 100 языках.

Ключевые технические детали

Модель доступна через Gemini API и Vertex AI и поддерживает следующие возможности:

  • Текст: Поддерживает контекст до 8192 входных токенов
  • Изображения: Обрабатывает до 6 изображений на запрос (форматы PNG и JPEG)
  • Видео: Поддерживает до 120 секунд видео (форматы MP4 и MOV)
  • Аудио: Нативно обрабатывает и создаёт эмбеддинги для аудио без необходимости текстовой транскрипции
  • Документы: Прямое создание эмбеддингов для PDF-файлов длиной до 6 страниц

Помимо обработки отдельных модальностей, модель нативно понимает чередующийся ввод, позволяя передавать несколько модальностей (например, изображение + текст) в одном запросе для улавливания тонких взаимосвязей между различными типами медиа.

Ad

Гибкие выходные размерности

Gemini Embedding 2 включает Matryoshka Representation Learning (MRL), что позволяет гибко масштабировать выходные размерности от стандартных 3072 вниз. Это позволяет разработчикам балансировать между производительностью и затратами на хранение. Google рекомендует использовать размерности 3072, 1536 или 768 для наивысшего качества.

Интеграция и варианты использования

Модель предназначена для мультимодальных задач, включая Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризацию данных. Она доступна через несколько платформ:

  • Gemini API
  • Vertex AI
  • LangChain, LlamaIndex, Haystack
  • Векторные базы данных: Weaviate, QDrant, ChromaDB и Vector Search

Google предоставляет интерактивные Colab-блокноты для начала работы с реализациями Gemini API и Vertex AI.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Mistral AI приобретает Emmi AI для создания промышленного инженерного ИИ-стека.
Новости

Mistral AI приобретает Emmi AI для создания промышленного инженерного ИИ-стека.

Mistral AI приобретает Emmi AI, объединяя модели физики ИИ для промышленного моделирования в энергетике, автомобилестроении, полупроводниковой и аэрокосмической отраслях. Объединенная команда из более чем 30 исследователей откроет новый офис в Линце.

OpenClawRadar
Локальная LLM не справляется с пасьянсом в Unreal Engine: Qwen 3.6-27B сжигает 687 тысяч токенов на одну карту
Новости

Локальная LLM не справляется с пасьянсом в Unreal Engine: Qwen 3.6-27B сжигает 687 тысяч токенов на одну карту

Попытка разработчика создать игру «Пасьянс» в Unreal Engine с помощью Qwen 3.6-27B потребовала 687 тысяч токенов для одной карты, что потребовало ручной загрузки PNG, создания сетки и интенсивных подсказок.

OpenClawRadar
Изучение n8n как альтернативы OpenClaw Skills для автоматизации
Новости

Изучение n8n как альтернативы OpenClaw Skills для автоматизации

Сообщество OpenClaw на Reddit обсуждает плюсы и минусы использования n8n вместо OpenClaw Skills для автоматизации задач. Ключевые темы обсуждения включают удобство использования, гибкость и примеры практического применения.

OpenClawRadar
Почему активирующее управление Anthropic испытывает трудности с генерацией корректного JSON
Новости

Почему активирующее управление Anthropic испытывает трудности с генерацией корректного JSON

Метод активации управления, используемый для безопасности ИИ, не способен генерировать действительный JSON, достигая лишь 24,4% валидности по сравнению с 86,8% у необученной базовой модели.

OpenClawRadar