Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google

✍️ OpenClawRadar📅 Опубликовано: 11 марта 2026 г.🔗 Source
Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google
Ad

Google DeepMind выпустила Gemini Embedding 2 в публичный предпросмотр — свою первую полностью мультимодальную модель эмбеддингов, построенную на архитектуре Gemini. В отличие от предыдущих моделей, работающих только с текстом, эта преобразует текст, изображения, видео, аудио и документы в единое, унифицированное пространство эмбеддингов, улавливая семантическое намерение на более чем 100 языках.

Ключевые технические детали

Модель доступна через Gemini API и Vertex AI и поддерживает следующие возможности:

  • Текст: Поддерживает контекст до 8192 входных токенов
  • Изображения: Обрабатывает до 6 изображений на запрос (форматы PNG и JPEG)
  • Видео: Поддерживает до 120 секунд видео (форматы MP4 и MOV)
  • Аудио: Нативно обрабатывает и создаёт эмбеддинги для аудио без необходимости текстовой транскрипции
  • Документы: Прямое создание эмбеддингов для PDF-файлов длиной до 6 страниц

Помимо обработки отдельных модальностей, модель нативно понимает чередующийся ввод, позволяя передавать несколько модальностей (например, изображение + текст) в одном запросе для улавливания тонких взаимосвязей между различными типами медиа.

Ad

Гибкие выходные размерности

Gemini Embedding 2 включает Matryoshka Representation Learning (MRL), что позволяет гибко масштабировать выходные размерности от стандартных 3072 вниз. Это позволяет разработчикам балансировать между производительностью и затратами на хранение. Google рекомендует использовать размерности 3072, 1536 или 768 для наивысшего качества.

Интеграция и варианты использования

Модель предназначена для мультимодальных задач, включая Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризацию данных. Она доступна через несколько платформ:

  • Gemini API
  • Vertex AI
  • LangChain, LlamaIndex, Haystack
  • Векторные базы данных: Weaviate, QDrant, ChromaDB и Vector Search

Google предоставляет интерактивные Colab-блокноты для начала работы с реализациями Gemini API и Vertex AI.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Ошибка шаблона чата Gemma 4: Параметры инструментов с anyOf/null отображаются как пустой тип
Новости

Ошибка шаблона чата Gemma 4: Параметры инструментов с anyOf/null отображаются как пустой тип

Ошибка в chat-шаблоне Gemma 4 удаляет $ref, anyOf и $defs из схем параметров инструментов, превращая nullable-ссылки в пустые поля type. Исправление Jinja восстанавливает корректный разбор схем для всех движков вывода.

OpenClawRadar
Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.
Новости

Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.

Пользователь сообщает об успешном локальном развертывании модели Qwen3.5-122B-A10B-MINT-MLX на M5 Pro с 64 ГБ ОЗУ, достигнув скорости генерации 39,58 токенов/сек с использованием специальных команд для выделения видеопамяти.

OpenClawRadar
Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов
Новости

Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов

Пользователь Reddit отправил сложный запрос обеим моделям Sonnet 4.6 и Opus 4.6; модель Sonnet показала лучший результат по критериям креативности и скрытых требований.

OpenClawRadar
Выпускники освистывают напутствия об ИИ на выпускных: признак настроений разработчиков
Новости

Выпускники освистывают напутствия об ИИ на выпускных: признак настроений разработчиков

Выпускники колледжей освистали ораторов, продвигавших энтузиазм по поводу ИИ на церемониях вручения дипломов, что отражает более широкое беспокойство о влиянии ИИ на работу и общество.

OpenClawRadar