Что ломается при запуске кодирующих агентов на маленьких локальных моделях

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source

После нескольких недель запуска реальных многофайловых задач кодирования на маленьких локальных моделях (менее 7B) и маленьких облачных моделях на бесплатных тарифах, пользователь Reddit задокументировал стабильные точки отказа, выходящие за рамки типичного шума бенчмарков. Вот что на самом деле ломается.

Ограждения Markdown — самая частая проблема

Даже с "выводить только сырой код, без форматирования Markdown" в системном промпте, большинство моделей оборачивают ответы в тройные обратные кавычки. Qwen3.5:9b и Gemma4:e4b следуют инструкциям наиболее последовательно, но все равно иногда сбиваются. Исправление — не в улучшении промпта, а в удалении ограждений на этапе постобработки по умолчанию.

Структурированный вывод ненадежен ниже 7B

Когда агентам требуется JSON для списков задач или типов действий, маленькие модели ошибаются гораздо чаще, чем показывают бенчмарки. Бенчмарки тестируют валидный JSON; реальное использование добавляет сложные многошаговые инструкции с краевыми случаями. Gemma4:e4b — самая надежная среди локальных моделей; Qwen3.5:9B немного отстает. Codellama справляется хуже. В облаке Llama 3.3 70B на Groq абсолютно надежна. Практическое решение: проверять JSON, повторять попытку с явной инструкцией, затем переходить на снисходительный парсер, извлекающий JSON из текста.

Модели редактируют не тот файл

Дайте маленькой модели задачу переименовать validateToken в verifyToken с картой проекта, содержащей похожие имена, и она может переименовать validateUser или изменить вообще не тот файл. Модель воспринимает карту проекта как предложения, а не ограничения. Исправление на уровне оркестрации: проверять, что пути к файлам существуют, а имена функций есть в указанных файлах. Выдавать ошибки при несоответствии — маленькие модели уверенно врут.

Классификация вопроса и действия

Вопрос «сколько строк в utils.js» должен быть только для чтения. Но если у исполнителя есть только один режим редактирования, он отредактирует файл, вставив туда ответ. Исправление: планировщик должен классифицировать запросы по типам действий до выполнения. Запросы только для чтения направляются на отдельный путь, который никогда не затрагивает диск.

Что работает лучше ожидаемого

Контроль токенов в коде: подсчитывайте токены перед каждым вызовом; маленькие модели не имеют понятия о лимитах контекста и не будут краткими, если им доверять.
Изоляция по файлам: отправка одного файла за раз значительно надежнее, чем двух — модели путают исправления.
Синтезная память: храните одно предложение о том, что сделала модель, а не полный список задач. Работает для отмены и добавления запросов.

Еще предстоит выяснить

Возможна ли какая-либо локальная модель менее 7B для роли агента — автор не нашел такую, которая не ошибалась бы в структурированном выводе достаточно часто. Открытый тестовый фреймворк на github.com/razvannec для вкладов.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Гайды

Чек-лист настройки OpenClaw: шесть важных шагов для новых пользователей

В посте на Reddit описаны шесть важных шагов настройки для пользователей OpenClaw: сменить модель по умолчанию с Opus на Sonnet для снижения затрат, заблокировать хост шлюза на 127.0.0.1 для безопасности, создать SOUL.md для личности агента, избегать установки навыков вначале, не создавать несколько агентов и использовать команду /new для управления контекстом беседы.

24 мар. 2026 г., 10:45 UTC

OpenClawRadar

Гайды

Охота на баги: Сбои WireGuard и несоответствие MTU в GKE

Инженеры Lovable отследили пользовательские ошибки до крахов anetd из-за паники конкурентного доступа к карте в интеграции WireGuard от Google, а затем обнаружили вторичное несоответствие MTU после отключения шифрования.

1 мая 2026 г., 12:23 UTC

OpenClawRadar

Гайды

Структурирование проектов кода Claude с использованием CLAUDE.md, Skills и MCP

Разработчик делится улучшениями рабочего процесса для Claude Code, включая начало в режиме планирования, ведение файла CLAUDE.md для памяти проекта, создание переиспользуемых навыков для повторяющихся задач и использование MCP для подключения к внешним инструментам.

28 февр. 2026 г., 05:45 UTC

OpenClawRadar

Гайды

Шлюз и навыки OpenClaw: переход от чата к автоматизированному выполнению

Шлюз OpenClaw соединяет каналы, такие как Telegram и WhatsApp, со скиллами, которые выполняют реальные действия, такие как запуск тестов, вызовы API и управление файлами, а cron-задачи позволяют настроить автоматизацию по расписанию в фоновом режиме.

20 мар. 2026 г., 15:45 UTC

OpenClawRadar