Протестированы 1-битные модели Qwen от PrismML Bonsai: генерация 107 токенов в секунду на 8 ГБ видеопамяти.

✍️ OpenClawRadar📅 Опубликовано: 5 апреля 2026 г.🔗 Source
Протестированы 1-битные модели Qwen от PrismML Bonsai: генерация 107 токенов в секунду на 8 ГБ видеопамяти.
Ad

Модели Bonsai: 1-битное квантование Qwen от PrismML

PrismML выпустила Bonsai — набор 1-битных квантованных версий моделей Qwen3 (8B, 4B и 1.7B параметров). Эти модели используют экстремальное квантование для радикального снижения требований к памяти при сохранении приемлемой производительности для определённых задач.

Результаты тестирования производительности

Тестирование на RTX 4060 с 8 ГБ видеопамяти показало:

  • Скорость генерации 107 токенов в секунду
  • Обработка промптов >1114 токенов в секунду
  • Значительно меньшее использование оперативной памяти по сравнению с моделями с Q4-квантованием

Для сравнения, Qwen 3.5 4B Q4 показала 56 т/с на тех же промптах и том же оборудовании.

Практические последствия

Сниженные требования к памяти позволяют запускать модели с 8B параметров на системах с 8 ГБ видеопамяти. Меньшие модели можно использовать с более длинными контекстными окнами благодаря экономии памяти.

Оценка качества

Первоначальное тестирование было сосредоточено на суммировании текста, где модель показала хорошие результаты. Тестировщик отметил, что не оценивал возможности программирования или использования инструментов.

Ad

Технические ограничения

Текущая реализация имеет проблемы с выводом на CPU. При тестировании на мини-ПК без GPU:

  • Форк llama.cpp успешно компилируется
  • Модель загружается, но зависает при обработке промптов
  • Анализ предполагает отсутствие реализации для CPU — вероятно, происходит деквантование в FP32 и попытка обычного вывода, что было бы крайне медленно на CPU

Технический потенциал

1-битные модели могут снизить не только требования к пропускной способности и памяти, но и к вычислительным ресурсам. Умножение матриц на 1-битных матрицах может использовать операции XOR, которые значительно быстрее операций с плавающей запятой. Даже с масштабированием до FP16 после операций XOR возможна значительная экономия вычислений, что потенциально может принести пользу сценариям вывода только на CPU и периферийным вычислениям.

Детали настройки

Тестировщик загрузил:

  • Модель Bonsai 8B
  • Форк llama.cpp от PrismML
  • Тестировал на Windows с CUDA

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Обновление PostmarketOS за февраль 2026 года: Универсальные ядра и политика в области ИИ
Новости

Обновление PostmarketOS за февраль 2026 года: Универсальные ядра и политика в области ИИ

PostmarketOS теперь предлагает универсальные пакеты ядра (linux-postmarketos-mainline, -stable, -lts) и обновила свою политику в отношении ИИ, явно запретив генеративный ИИ. В проекте также произошли изменения среди участников и улучшения аппаратного CI.

OpenClawRadar
Напряженность нарастает между Пентагоном и компанией ИИ Anthropic.
Новости

Напряженность нарастает между Пентагоном и компанией ИИ Anthropic.

Использование ИИ Anthropic Пентагоном в засекреченных операциях, таких как рейд в Венесуэле, создало напряженность по поводу политик безопасности ИИ компании.

OpenClawRadar
Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.
Новости

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.

Кодирующие агенты, такие как Claude Code и Codex CLI, хранят подробные журналы сессий локально, включая задачи, рассуждения, вызовы инструментов и ответы среды. В посте на Reddit предлагается использовать эти данные с помощью федеративного обучения для создания открытого аналога проприетарных наборов данных для обучения.

OpenClawRadar
Память агента — это не проблема хранения: это проблема авторитета
Новости

Память агента — это не проблема хранения: это проблема авторитета

Разработчик утверждает: агентная память подводит не из-за ошибок поиска, а потому что все заметки возвращаются с равным авторитетом. Решение: граф с ролями, сроками действия и полями активации.

OpenClawRadar