Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google

Google DeepMind выпустила Gemini Embedding 2 в публичный предпросмотр — свою первую полностью мультимодальную модель эмбеддингов, построенную на архитектуре Gemini. В отличие от предыдущих моделей, работающих только с текстом, эта преобразует текст, изображения, видео, аудио и документы в единое, унифицированное пространство эмбеддингов, улавливая семантическое намерение на более чем 100 языках.
Ключевые технические детали
Модель доступна через Gemini API и Vertex AI и поддерживает следующие возможности:
- Текст: Поддерживает контекст до 8192 входных токенов
- Изображения: Обрабатывает до 6 изображений на запрос (форматы PNG и JPEG)
- Видео: Поддерживает до 120 секунд видео (форматы MP4 и MOV)
- Аудио: Нативно обрабатывает и создаёт эмбеддинги для аудио без необходимости текстовой транскрипции
- Документы: Прямое создание эмбеддингов для PDF-файлов длиной до 6 страниц
Помимо обработки отдельных модальностей, модель нативно понимает чередующийся ввод, позволяя передавать несколько модальностей (например, изображение + текст) в одном запросе для улавливания тонких взаимосвязей между различными типами медиа.
Гибкие выходные размерности
Gemini Embedding 2 включает Matryoshka Representation Learning (MRL), что позволяет гибко масштабировать выходные размерности от стандартных 3072 вниз. Это позволяет разработчикам балансировать между производительностью и затратами на хранение. Google рекомендует использовать размерности 3072, 1536 или 768 для наивысшего качества.
Интеграция и варианты использования
Модель предназначена для мультимодальных задач, включая Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризацию данных. Она доступна через несколько платформ:
- Gemini API
- Vertex AI
- LangChain, LlamaIndex, Haystack
- Векторные базы данных: Weaviate, QDrant, ChromaDB и Vector Search
Google предоставляет интерактивные Colab-блокноты для начала работы с реализациями Gemini API и Vertex AI.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Ошибка шаблона чата Gemma 4: Параметры инструментов с anyOf/null отображаются как пустой тип
Ошибка в chat-шаблоне Gemma 4 удаляет $ref, anyOf и $defs из схем параметров инструментов, превращая nullable-ссылки в пустые поля type. Исправление Jinja восстанавливает корректный разбор схем для всех движков вывода.

Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.
Пользователь сообщает об успешном локальном развертывании модели Qwen3.5-122B-A10B-MINT-MLX на M5 Pro с 64 ГБ ОЗУ, достигнув скорости генерации 39,58 токенов/сек с использованием специальных команд для выделения видеопамяти.

Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов
Пользователь Reddit отправил сложный запрос обеим моделям Sonnet 4.6 и Opus 4.6; модель Sonnet показала лучший результат по критериям креативности и скрытых требований.

Выпускники освистывают напутствия об ИИ на выпускных: признак настроений разработчиков
Выпускники колледжей освистали ораторов, продвигавших энтузиазм по поводу ИИ на церемониях вручения дипломов, что отражает более широкое беспокойство о влиянии ИИ на работу и общество.