Реализация локального агента OpenClaw с кэшированием TurboQuant для оборудования среднего класса

Команда OpenClaw выпустила приложение в один клик, которое позволяет локальным агентным моделям работать на оборудовании среднего класса, таком как MacBook Air с 16 ГБ оперативной памяти и Mac Mini. Реализация решает проблему запуска сложных агентных моделей (таких как QWEN или GLM) на обычном оборудовании, используя сжатие кэша TurboQuant и процесс прогрева контекста.
Технические детали реализации
Решение основано на нескольких ключевых компонентах:
- Кэширование TurboQuant: Использует реализацию TurboQuant от Тома Тёрни для llama.cpp, которая была исправлена для корректной работы с вызовом инструментов в агентных моделях QWEN.
- Кэширование/прогрев контекста: Реализует специфичный для OpenClaw процесс "прогрева", который занимает несколько минут после запуска модели, но затем обеспечивает плавную обработку запросов на ограниченном оборудовании.
- Поддержка моделей: Протестировано с рассуждающей моделью Google Gemma 4 и QWEN 3.5, обе демонстрируют схожую производительность на стандартных машинах M4.
Тесты производительности
По результатам тестирования на MacBook Air с 16 ГБ памяти:
- Скорость обработки: И Gemma 4, и QWEN 3.5 обеспечивают примерно 10-15 токенов в секунду (tps)
- Сравнение скорости: QWEN показывает немного более высокую производительность, чем Gemma 4
- Производительность рассуждений: Сопоставима между двумя моделями, хотя ни одна не соответствует моделям Anthropic в сложных задачах или программировании
- Сравнение с облаком: Ответы в 2-3 раза медленнее, чем у мощных облачных моделей
Практическое применение
Данная реализация делает локальных агентов пригодными для:
- Повседневных задач, где скорость не критична
- Фоновых процессов на доступном оборудовании (например, Mac Mini за $600)
- Круглосуточного локального развертывания агентов, которое может окупиться за несколько месяцев
Команда отмечает, что хотя производительность рассуждений пока не соответствует топовым облачным моделям в сложных задачах, это представляет собой значительный шаг к практическому локальному развертыванию агентов на потребительском оборудовании.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

GoStaff: Переписанная на Go версия OpenClaw с сокращением использования памяти в 100 раз
GoStaff — это полная переписанная на Go версия OpenClaw, которая сокращает использование памяти примерно до 17 МБ, что примерно в 100 раз меньше, чем исходная реализация. Она сохраняет полную совместимость с существующими плагинами OpenClaw, добавляя при этом нативную поддержку навыков на Go и упрощённую архитектуру в виде единого бинарного файла.
Интеграция xAI TTS для Home Assistant, созданная с помощью Claude — полный репозиторий
Разработчик использовал Claude для создания пользовательской интеграции Home Assistant для TTS API xAI (голос Eve) с полным UI-конфигурированием, пятью голосами и речевыми тегами.

Fehu: CLI-бухгалтерия двойной записи с интеграцией Claude AI MCP
Fehu — это легковесный CLI-инструмент для личного учёта, который подключается к Claude AI через MCP, позволяя записывать транзакции на естественном языке с использованием двойной бухгалтерии на основе SQLite. Он поддерживает иерархические счета, автоматическое тегирование хештегами, мощный движок вычислений и работу с несколькими валютами.

Создание голосовой мультиагентной системы на основе Claude Code
Разработчик создал голосовой интерфейс для Claude Code с активацией по ключевому слову, параллельными под-агентами, автоматическими проверками и отслеживанием процессов. Полный технический разбор с верификацией говорящего и PID-наблюдателем.