Использование меньшей модели в качестве гигиенического слоя во время выполнения повышает надежность агента OpenClaw.

✍️ OpenClawRadar📅 Опубликовано: 14 марта 2026 г.🔗 Source

Проблема: Неряшливые ответы ухудшают работу долго работающих агентов

При локальном запуске OpenClaw на Mac Studio M4 (36 ГБ) с Qwen 3.5 27B (4-бит, oMLX) в качестве домашнего агента модель не теряла способностей со временем — она становилась неряшливой. Конкретные проблемы включали:

Утечки вызовов инструментов в виде сырого текста вместо структурированного использования инструментов
Просачивание мыслей планирования в финальные ответы
Повторение результатов инструментов и текста политики обратно пользователю
Некорректные выходные данные, отравляющие контекст и вызывающие деградацию с каждым последующим ходом

Основная проблема заключалась не в возможностях, а в гигиене времени выполнения: модель знала, что делать, но не справлялась с правильным поведением в среде выполнения OpenClaw.

Решение: Четырехуровневая архитектура для гигиены времени выполнения

Разработчик реализовал четырехуровневый подход, который оказался эффективнее простого использования большей модели:

Суммаризация: Сжатие контекста через lossless-claw (на основе DAG, freshTailCount=12, contextThreshold=0.60). Это дало самое значительное улучшение.
Шериф: Проверки по регулярным выражениям и эвристикам, которые отлавливают некорректные ответы до их попадания в OpenClaw. Это предотвращает превращение утекшей разметки инструментов, болтовни планировщика и сырого JSON в устойчивый контекст.
Судья: Меньшая, более дешевая модель, которая классифицирует пограничные выходные данные как «валидный финальный ответ» или «мусор». Эта модель не для интеллекта, а для гигиены времени выполнения — это иммунная система, а не второй мозг. Она также обрабатывает всю суммаризацию для lossless-claw.
Оземпик (внутреннее название): Агрессивная очистка памяти, которая гарантирует, что модель в будущих ходах перечитывает только запросы пользователя, финальные ответы и сжатые факты, полученные от инструментов — а не болтовню планировщика, сырой JSON инструментов, артефакты повторных попыток или внутренний диалог о политике.

Почему это лучше, чем использовать большую модель

Одна модель должна одновременно решать задачи, поддерживать форматирование, управлять связностью контекста, избегать самоотравления собственными выходами и восстанавливаться после плохих выходных данных — что особенно сложно при локальных уровнях квантования. Разделение обязанностей, когда основная модель выполняет работу, а меньшая модель поддерживает гигиену времени выполнения, оказалось эффективнее, чем добавление большего количества параметров.

Результат: Устойчивая работа без сбросов

Этот подход позволил перейти от необходимости сбросов /new каждые 20-30 минут к устойчивой работе в одной сессии на Mac Studio M4 с 36 ГБ ОЗУ, полностью локально, без вызовов API.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Кейсы

Разработчик создал персональное приложение для ОС с помощью Claude Code и Mowgli за 3 часа

Разработчик задокументировал создание персонального приложения-операционной системы под названием Longinus менее чем за 3 часа с использованием инструментов ИИ-кодинга. Приложение интегрирует несколько коммуникационных платформ и предоставляет функции организации на базе искусственного интеллекта.

28 февр. 2026 г., 16:45 UTC

OpenClawRadar

Кейсы

Разработчик рассматривает переход с DeepSeek на Grok для создания финансового AI-агента

Разработчик, создающий финансовое веб-приложение с ИИ на FastAPI/Python, сообщает, что у DeepSeek V3.2 Reasoning время до первого токена составляет 70 секунд, а скорость вывода — около 25 токенов в секунду, из-за чего потоковая передача работает очень плохо. Он рассматривает переход на Grok 4.1 Fast Reasoning с временем до первого токена около 15 секунд и скоростью вывода около 75 токенов в секунду.

19 мар. 2026 г., 03:45 UTC

OpenClawRadar

Кейсы

Модель Qwen 27B демонстрирует высокую производительность при анализе длинных контекстов в лоре.

Пользователь сообщает, что Qwen 27B эффективно анализирует плотные документы с историями объемом 80 тысяч токенов, превосходя другие локальные модели, такие как Gemma 3 27B и Reka Flash, в задачах детального построения фэнтези-миров. Квантование Q4-K-XL предлагает наилучший баланс скорости и качества для длинных контекстов.

17 мар. 2026 г., 06:45 UTC

OpenClawRadar

Кейсы

DevOps-инженер использует Claude Code для создания пользовательского терминального приложения.

DevOps/SRE инженер с многолетним опытом использовал Claude Code для создания терминального приложения, которое он представлял, но не мог завершить в одиночку. ИИ занимался каркасом и интеграциями, пока инженер сосредоточился на продуктовых решениях.

30 мар. 2026 г., 16:45 UTC

OpenClawRadar