Модель искусственного интеллекта Google Nano Banana 2 для генерации изображений: возможности и доступность

Что такое Nano Banana 2
Google DeepMind представила Nano Banana 2 (Gemini 3.1 Flash Image) — новую модель генерации изображений на основе ИИ, которая объединяет расширенные возможности Nano Banana Pro с высокой скоростью Gemini Flash. Эта модель предназначена для ускоренного редактирования и итераций в рабочих процессах создания изображений.
Ключевые особенности и характеристики
Nano Banana 2 включает несколько конкретных технических улучшений и функций:
- Расширенные знания о мире: Использует базу знаний Gemini о реальном мире и информацию в реальном времени из веб-поиска для точного отображения конкретных объектов. Это позволяет создавать инфографику, диаграммы из заметок и визуализации данных.
- Точное отображение и перевод текста: Генерирует точный, читаемый текст для маркетинговых макетов или поздравительных открыток, а также может переводить/локализовать текст внутри изображений.
- Согласованность объектов: Сохраняет сходство персонажей для до пяти персонажей и точность для до 14 объектов в одном рабочем процессе, позволяя создавать раскадровки без изменения внешнего вида исходных данных.
- Точное следование инструкциям: Более строго придерживается сложных запросов для передачи конкретных нюансов идей.
- Готовые к производству характеристики: Поддерживает различные соотношения сторон и разрешения от 512px до 4K для разных форматов, таких как вертикальные посты в соцсетях или широкоэкранные фоны.
- Улучшение визуальной точности: Обеспечивает яркое освещение, более богатые текстуры и чёткие детали при сохранении скорости Flash.
Доступность и интеграция
Модель внедряется в продукты Google, включая приложение Gemini, Google Поиск и Google Рекламу. Google также улучшает свою технологию SynthID с помощью C2PA Content Credentials для идентификации контента, созданного ИИ.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Контекстное управление OpenClaw подверглось критике за высокое потребление токенов и архитектурные недостатки.
Пользователь Reddit критикует OpenClaw за неэффективное управление контекстом, которое приводит к чрезмерному использованию токенов. Фреймворк добавляет все действия в глобальную историю, создавая раздутые промпты, которые перегружают небольшие модели и вынуждают полагаться на дорогие передовые модели, такие как Claude Opus.

Исследователи Университета Вашингтона планируют использовать камеры, закрепленные на учителях, для обучения ИИ; родители могут отказаться
Исследователи из Вашингтонского университета планировали, что воспитатели детских садов будут носить камеры от первого лица для записи детей с целью обучения моделей ИИ, используя модель согласия opt-out.

Исходный код против моделей нового поколения: бенчмарк сцены с автомобилем на холсте в одном файле
Разработчик протестировал 12 моделей, включая GPT-5.5, Claude Opus 4.7 и Qwen 3.6 Plus, на задаче создания анимации движения автомобиля в одном HTML-файле с Canvas. Результаты опубликованы для сравнения.

Результаты исследований по надежности ИИ-агентов и моделям их развития
Совместный исследовательский сеанс с Claude Opus, в ходе которого были проанализированы 15 статей об ИИ-агентах, выявил количественные проблемы надежности: агенты генерируют 2-4 различных последовательности действий за 10 запусков, причем 69% расхождений происходит при первом же решении. Самообучающиеся агенты продемонстрировали снижение уровня отказов по соображениям безопасности с 99,4% до 54,4% благодаря собственному обучению.