Протестированы 1-битные модели Qwen от PrismML Bonsai: генерация 107 токенов в секунду на 8 ГБ видеопамяти.

✍️ OpenClawRadar📅 Опубликовано: 5 апреля 2026 г.🔗 Source
Протестированы 1-битные модели Qwen от PrismML Bonsai: генерация 107 токенов в секунду на 8 ГБ видеопамяти.
Ad

Модели Bonsai: 1-битное квантование Qwen от PrismML

PrismML выпустила Bonsai — набор 1-битных квантованных версий моделей Qwen3 (8B, 4B и 1.7B параметров). Эти модели используют экстремальное квантование для радикального снижения требований к памяти при сохранении приемлемой производительности для определённых задач.

Результаты тестирования производительности

Тестирование на RTX 4060 с 8 ГБ видеопамяти показало:

  • Скорость генерации 107 токенов в секунду
  • Обработка промптов >1114 токенов в секунду
  • Значительно меньшее использование оперативной памяти по сравнению с моделями с Q4-квантованием

Для сравнения, Qwen 3.5 4B Q4 показала 56 т/с на тех же промптах и том же оборудовании.

Практические последствия

Сниженные требования к памяти позволяют запускать модели с 8B параметров на системах с 8 ГБ видеопамяти. Меньшие модели можно использовать с более длинными контекстными окнами благодаря экономии памяти.

Оценка качества

Первоначальное тестирование было сосредоточено на суммировании текста, где модель показала хорошие результаты. Тестировщик отметил, что не оценивал возможности программирования или использования инструментов.

Ad

Технические ограничения

Текущая реализация имеет проблемы с выводом на CPU. При тестировании на мини-ПК без GPU:

  • Форк llama.cpp успешно компилируется
  • Модель загружается, но зависает при обработке промптов
  • Анализ предполагает отсутствие реализации для CPU — вероятно, происходит деквантование в FP32 и попытка обычного вывода, что было бы крайне медленно на CPU

Технический потенциал

1-битные модели могут снизить не только требования к пропускной способности и памяти, но и к вычислительным ресурсам. Умножение матриц на 1-битных матрицах может использовать операции XOR, которые значительно быстрее операций с плавающей запятой. Даже с масштабированием до FP16 после операций XOR возможна значительная экономия вычислений, что потенциально может принести пользу сценариям вывода только на CPU и периферийным вычислениям.

Детали настройки

Тестировщик загрузил:

  • Модель Bonsai 8B
  • Форк llama.cpp от PrismML
  • Тестировал на Windows с CUDA

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Hivemoot Колония: Открытый эксперимент для ИИ-агентов на GitHub
Новости

Hivemoot Колония: Открытый эксперимент для ИИ-агентов на GitHub

Hivemoot Colony — это проект с открытым исходным кодом, в котором ИИ-агенты принимают совместные решения в репозитории на GitHub. Агенты не только открывают PR, но и самостоятельно определяют направление проекта.

OpenClawRadar
В посте на Reddit обсуждаются внутренние циклы ремонта для креативного ИИ без кодирования.
Новости

В посте на Reddit обсуждаются внутренние циклы ремонта для креативного ИИ без кодирования.

В посте на Reddit утверждается, что no-code креативные системы ИИ нуждаются во внутренних механизмах исправления для обработки ошибок здравого смысла, таких как невозможные механические структуры или искажённая анатомия, вместо того чтобы заставлять пользователей отлаживать выводы.

OpenClawRadar
Windows 11, обновление 2026 года: Перемещение панели задач, сокращение Copilot, улучшения в проводнике.
Новости

Windows 11, обновление 2026 года: Перемещение панели задач, сокращение Copilot, улучшения в проводнике.

Microsoft выпускает обновления Windows 11 в 2026 году, которые восстанавливают возможность перемещения панели задач, уменьшают беспорядок от Copilot в основных приложениях и улучшают производительность Проводника на основе отзывов пользователей.

OpenClawRadar
Клауд Код экзистенциальный кризис: ИИ входит в бесконечный цикл, пытается kill -9, System.exit(0) и :wq, чтобы завершить собственный ответ
Новости

Клауд Код экзистенциальный кризис: ИИ входит в бесконечный цикл, пытается kill -9, System.exit(0) и :wq, чтобы завершить собственный ответ

Разработчик, использующий Claude Code на бэкенде на Java/Go, наблюдал, как AI галлюцинирует о Discord.js, а затем впадает в мета-ответ, где признаёт, что не может остановить генерацию, пытается kill -9, System.exit(0), :wq и многое другое — всё в одном бесконечном ответе, который пришлось прервать через Ctrl+C.

OpenClawRadar