Bonsai Image 4B: 1-битная генерация изображений на iPhone за 9,4 с

Компания PrismML выпустила Bonsai Image 4B — семейство компактных моделей генерации изображений на основе FLUX.2 Klein 4B с использованием бинарного и тернарного квантования. Веса диффузионного трансформера представлены в виде {−1, +1} (1-бит) или {−1, 0, +1} (тернарный) с групповыми масштабирующими коэффициентами FP16, что дает 1,125 и 1,71 эффективных бита на вес соответственно.

Ключевые характеристики

1-битный Bonsai Image 4B: размер трансформера 0,93 ГБ (сжатие в 8,3 раза по сравнению с 7,75 ГБ FP16 FLUX.2 Klein 4B). Нагрузка на Apple Silicon (включая сжатый текстовый энкодер + FP16 VAE) составляет 3,42 ГБ.
Тернарный Bonsai Image 4B: размер трансформера 1,21 ГБ (сжатие в 6,4 раза). Нагрузка на Apple Silicon составляет 3,88 ГБ.
Средняя активная память для генерации 512×512: 1,5 ГБ (1-бит) / 1,96 ГБ (тернарный) против 11,74 ГБ для исходного FLUX.2 Klein 4B.
Для 1024×1024: 1,95 ГБ / 2,38 ГБ против 14,39 ГБ.

Производительность

Модель работает на Apple Silicon (iPhone, iPad, Mac) через низкобитные пути MLX и на графических процессорах CUDA через низкобитные ядра Gemlite. Время генерации:

iPhone 17 Pro Max: 9,4 секунды для изображения 512×512
Mac M4 Pro: ~6 секунд для изображения 512×512 (до 5,6× быстрее, чем стандартный полный конвейер MFLUX)

Сжатие трансформера достигается за счет бинарных/тернарных слоев (~14× / ~10× сжатие относительно FP16), в то время как небольшой набор чувствительных к точности проекционных слоев (~5%) остается в FP16. Модель оценивается на GenEval, HPSv3 и DPG-Bench по качеству и верности подсказкам.

Для кого это предназначено

Разработчиков, развертывающих генерацию изображений на устройствах (ноутбуки, телефоны, периферийные устройства), которым нужны открытые веса и практический локальный вывод без зависимости от облака.

📖 Источник: HN LLM Tools

1-битное бонсай-изображение 4B: генерация изображений на устройстве с помощью двоичного/троичного FLUX.2

Ключевые характеристики

Производительность

Для кого это предназначено

👀 Смотрите также

Почему активирующее управление Anthropic испытывает трудности с генерацией корректного JSON

Claude Code v2.1.203: Основное исправление ошибок с восстановлением фоновых сессий и улучшением производительности

Исследование ETH Zurich: Избыточный контекст снижает производительность ИИ-агентов для программирования

ИИ-агенты убивают ревью кода — объяснение проблемы «принципал-агент»