Бенчмарк: Gemma4 12B против квантованной Qwen3 8B на Mac Mini с 24 ГБ памяти.

Сравнение производительности двух локальных моделей для OpenClaw
Разработчик провёл прямое сравнение моделей Gemma4 12B и Qwen3:8b-q4_K_M на Mac Mini с 24 ГБ памяти. В тесте использовались два промпта: «объясни, как работает карбюратор» и «напиши функцию на Python для обнаружения утечек памяти». Claude помог написать команду grep для измерения вывода.
Результаты тестирования
Задача с объяснением карбюратора:
- Qwen3:8b-q4_K_M: Оценка промпта: 89.8 t/s, Генерация: 19.6 t/s
- Gemma4: Оценка промпта: 20.8 t/s, Генерация: 27.6 t/s
Задача с кодом на Python:
- Qwen3:8b-q4_K_M: Оценка промпта: 133.8 t/s, Генерация: 18.7 t/s
- Gemma4: Оценка промпта: 26.1 t/s, Генерация: 26.1 t/s
Ключевые выводы
Qwen3 обрабатывает промпты в 4-5 раз быстрее, чем Gemma4, что важно для OpenClaw из-за больших контекстных промптов, которые обычно отправляются. Gemma4 генерирует вывод немного быстрее. Для многих задач в OpenClaw Qwen3 выигрывает по скорости. Разработчик отмечает, что Gemma4 — это 12B-модель и может давать немного лучший вывод, хотя это не тестировалось.
Разработчик выполняет различные задачи на локальных моделях, включая cron-задания, мониторинг активности, индексацию памяти, и часто использует OpenClaw для вызова подзадач, работающих на локальных моделях. Они тестируют Gemma4 в качестве локальной модели для всех этих фоновых задач, но не ожидают заметной разницы в производительности, поскольку они выполняются в фоновом режиме.
📖 Read the full source: r/openclaw
👀 Смотрите также

Почему Codex всё ещё превосходит Claude Code для сложных монолитов на Python
Старший разработчик сравнивает Codex и Claude Code на примере продакшен-монолита на Python со смешанными архитектурными слоями. Codex побеждает в бэкенд-работе благодаря лучшему планированию, повторному использованию кода и соблюдению принципов harness-инженерии.

Фабрика агентов: Плагин Claude Code для создания постоянных команд AI-субагентов
Agent-factory — это плагин Claude Code, который создает постоянные команды под-агентов с различными личностями и файловой памятью. Он формирует 2-5 агентов на проект через диалоговое интервью, где каждый агент выполняет определенные роли, такие как ревью кода, отслеживание технического долга или стратегия.

Тест на устойчивость языковых моделей к бессмысленным запросам
Бенчмарк Bullshit оценивает, идентифицируют ли ИИ-модели очевидно бессмысленные запросы и возражают против них, вместо того чтобы уверенно генерировать неправильные ответы. Результаты показывают, что модели Claude значительно лучше моделей Gemini в обнаружении бессмысленных вопросов.

Локальная панель управления отслеживает использование Claude Code с учетом затрат на токены, вызовов инструментов и аналитики сессий.
Разработчик создал локальную панель управления, которая считывает JSONL-файлы сессий Claude Code для визуализации использования токенов, примерных затрат, распределения вызовов инструментов и истории сессий. Инструмент работает полностью на вашем компьютере с использованием Express API и React-панели управления.