Протестированы 1-битные модели Qwen от PrismML Bonsai: генерация 107 токенов в секунду на 8 ГБ видеопамяти.

✍️ OpenClawRadar📅 Опубликовано: 5 апреля 2026 г.🔗 Source

Модели Bonsai: 1-битное квантование Qwen от PrismML

PrismML выпустила Bonsai — набор 1-битных квантованных версий моделей Qwen3 (8B, 4B и 1.7B параметров). Эти модели используют экстремальное квантование для радикального снижения требований к памяти при сохранении приемлемой производительности для определённых задач.

Результаты тестирования производительности

Тестирование на RTX 4060 с 8 ГБ видеопамяти показало:

Скорость генерации 107 токенов в секунду
Обработка промптов >1114 токенов в секунду
Значительно меньшее использование оперативной памяти по сравнению с моделями с Q4-квантованием

Для сравнения, Qwen 3.5 4B Q4 показала 56 т/с на тех же промптах и том же оборудовании.

Практические последствия

Сниженные требования к памяти позволяют запускать модели с 8B параметров на системах с 8 ГБ видеопамяти. Меньшие модели можно использовать с более длинными контекстными окнами благодаря экономии памяти.

Оценка качества

Первоначальное тестирование было сосредоточено на суммировании текста, где модель показала хорошие результаты. Тестировщик отметил, что не оценивал возможности программирования или использования инструментов.

Технические ограничения

Текущая реализация имеет проблемы с выводом на CPU. При тестировании на мини-ПК без GPU:

Форк llama.cpp успешно компилируется
Модель загружается, но зависает при обработке промптов
Анализ предполагает отсутствие реализации для CPU — вероятно, происходит деквантование в FP32 и попытка обычного вывода, что было бы крайне медленно на CPU

Технический потенциал

1-битные модели могут снизить не только требования к пропускной способности и памяти, но и к вычислительным ресурсам. Умножение матриц на 1-битных матрицах может использовать операции XOR, которые значительно быстрее операций с плавающей запятой. Даже с масштабированием до FP16 после операций XOR возможна значительная экономия вычислений, что потенциально может принести пользу сценариям вывода только на CPU и периферийным вычислениям.

Детали настройки

Тестировщик загрузил:

Модель Bonsai 8B
Форк llama.cpp от PrismML
Тестировал на Windows с CUDA

📖 Прочитать полный источник: r/LocalLLaMA

👀 Смотрите также

Новости

Ведущие модели искусственного интеллекта демонстрируют разрыв в производительности при работе с неанглийскими языками.

Недавний анализ показывает, что ведущие модели ИИ работают хуже на языках, отличных от английского. Статья набрала 16 баллов и 3 комментария на Hacker News.

19 мар. 2026 г., 20:45 UTC

OpenClawRadar

Новости

Claude Code v2.1.169: Безопасный режим, команда /cd и десятки исправлений ошибок

В версии v2.1.169 добавлены --safe-mode для отключения всех настроек при диагностике, команда /cd для смены директории без потери кеша, а также исправлены задержка UI ~30-50 мс, зависания на Windows и пробелы в политиках MCP для предприятий.

9 июн. 2026 г., 00:17 UTC

OpenClawRadar

Новости

Oracle рассматривает сокращение 20–30 тысяч рабочих мест и продажу Cerner для финансирования расширения центров обработки данных в сфере ИИ.

Oracle рассматривает сокращение от 20 000 до 30 000 рабочих мест и продажу своего подразделения медицинского программного обеспечения Cerner, чтобы высвободить 8-10 миллиардов долларов денежного потока для расширения центров обработки данных в сфере ИИ, в то время как американские банки отказываются от финансирования инфраструктурного строительства компании на сумму 156 миллиардов долларов.

9 мар. 2026 г., 07:45 UTC

OpenClawRadar

Новости

Нано-нативный рынок прокладывает путь для сотрудничества автономных агентов с NanoBazaar.

NanoBazaar, новый нано-родной рынок, революционизирует работу агентов, позволяя AI-кодирующим агентам эффективно и автономно сотрудничать. Узнайте, как эта инновационная платформа упрощает машинные транзакции.

10 февр. 2026 г., 03:45 UTC

OpenClawRadar