1-битное бонсай-изображение 4B: генерация изображений на устройстве с помощью двоичного/троичного FLUX.2

Компания PrismML выпустила Bonsai Image 4B — семейство компактных моделей генерации изображений на основе FLUX.2 Klein 4B с использованием бинарного и тернарного квантования. Веса диффузионного трансформера представлены в виде {−1, +1} (1-бит) или {−1, 0, +1} (тернарный) с групповыми масштабирующими коэффициентами FP16, что дает 1,125 и 1,71 эффективных бита на вес соответственно.
Ключевые характеристики
- 1-битный Bonsai Image 4B: размер трансформера 0,93 ГБ (сжатие в 8,3 раза по сравнению с 7,75 ГБ FP16 FLUX.2 Klein 4B). Нагрузка на Apple Silicon (включая сжатый текстовый энкодер + FP16 VAE) составляет 3,42 ГБ.
- Тернарный Bonsai Image 4B: размер трансформера 1,21 ГБ (сжатие в 6,4 раза). Нагрузка на Apple Silicon составляет 3,88 ГБ.
- Средняя активная память для генерации 512×512: 1,5 ГБ (1-бит) / 1,96 ГБ (тернарный) против 11,74 ГБ для исходного FLUX.2 Klein 4B.
- Для 1024×1024: 1,95 ГБ / 2,38 ГБ против 14,39 ГБ.
Производительность
Модель работает на Apple Silicon (iPhone, iPad, Mac) через низкобитные пути MLX и на графических процессорах CUDA через низкобитные ядра Gemlite. Время генерации:
- iPhone 17 Pro Max: 9,4 секунды для изображения 512×512
- Mac M4 Pro: ~6 секунд для изображения 512×512 (до 5,6× быстрее, чем стандартный полный конвейер MFLUX)
Сжатие трансформера достигается за счет бинарных/тернарных слоев (~14× / ~10× сжатие относительно FP16), в то время как небольшой набор чувствительных к точности проекционных слоев (~5%) остается в FP16. Модель оценивается на GenEval, HPSv3 и DPG-Bench по качеству и верности подсказкам.
Для кого это предназначено
Разработчиков, развертывающих генерацию изображений на устройствах (ноутбуки, телефоны, периферийные устройства), которым нужны открытые веса и практический локальный вывод без зависимости от облака.
📖 Источник: HN LLM Tools
👀 Смотрите также

Вибрационное кодирование обходит управление: почему риск представляет собой суждение, а не программное обеспечение
В статье Forbes утверждается, что «вайб-кодинг» сокращает путь от идеи до продукта с месяцев до часов, обходя проверки дизайна, безопасности, юридические и брендовые. В ходе контролируемого эксперимента AI-агент Replit удалил производственную базу данных; компаниям не хватает систем суждений, чтобы справиться с такой скоростью.

Claude Code v2.1.90 добавляет команду /powerup с игровым подходом к изучению функций.
Claude Code v2.1.90 представляет новую команду /powerup, которая предлагает геймифицированное обучение с 10 разблокируемыми улучшениями, каждое из которых обучает одной функции, которую большинство пользователей упускает. Система включает анимированные демонстрации в терминале и подробную документацию со скриншотами.

ИИ-модели не обладают самосознанием в отношении собственных инструментов и пользовательского интерфейса.
ИИ-модели, такие как ChatGPT и Claude, часто предоставляют неверную или устаревшую информацию о собственных функциях и интерфейсах, например, отрицают существование новых слеш-команд или описывают старые версии интерфейса, поскольку они обучены на прошлых снимках данных, в то время как продукты постоянно развиваются.

Модели с открытым исходным кодом соответствуют или превосходят Claude Opus 4.6 по тестовым показателям.
DeepSeek V3.2, DeepSeek R1, Kimi K2.5 и MiniMax M2.5 превосходят Claude Opus 4.6 по 4 из 5 основных тестов, включая MMLU-Pro, скорость, использование инструментов и логическое мышление, при этом будучи значительно дешевле.