AutoBe: Как слабые локальные LLM исправили архитектуру генератора AI-бэкенда

Что произошло
AutoBe — это открытый ИИ-агент, который генерирует полноценные бэкенд-приложения с использованием TypeScript, NestJS и Prisma. Изначально он достигал 100% успешной компиляции, но код был неподдерживаемым — не было повторного использования кода, поэтому любое небольшое изменение требовало перегенерации всего. Команда перестроила систему вокруг модульной генерации кода, что сразу же снизило показатель успеха до 40%.
Прорыв в отладке
Когда новая архитектура ввела зависимости между модулями, команда использовала намеренно слабые локальные LLM для поиска ошибок, о существовании которых они не подозревали. Модель qwen3-30b-a3b-thinking имела успех около 10% и выявляла неоднозначности в AST-схемах и некорректные структуры. Модель qwen3-next-80b-a3b-instruct имела успех около 20% и выявляла несоответствия типов и крайние случаи во вложенных отношениях.
Такой низкий показатель успеха оказался ценным: каждое исправление укрепляло всю систему. Когда схема достаточно точна, чтобы 30B-модель не могла её неверно интерпретировать, более мощные модели тоже не ошибаются. Этот подход также подчёркивает преимущество локальных LLM в стоимости — обнаружение крайних случаев требует сотен циклов генерация-компиляция-диагностика, что было бы непомерно дорого по ценам облачных API.
Архитектурный сдвиг
Команда перешла от инженерии промптов к проектированию схем с валидационной обратной связью. Они свели системные промпты почти к нулю и перенесли все ограничения в схемы вызова функций, позволяя валидационной обратной связи выполнять обучение. AutoBe использует три типа AST, которые особенно сложны для генерации LLM: AutoBeDatabase (модели Prisma, отношения, индексы), AutoBeOpenApi (схемы OpenAPI, конечные точки, DTO) и AutoBeTest (30+ типов выражений).
Эти структуры сложны, потому что включают неограниченные объединения типов, неограниченную глубину и рекурсивные ссылки. Например, AST компилятора включает такие типы, как IArrayLiteralExpression и IObjectLiteralExpression, которые содержат рекурсивные ссылки на IExpression[].
Результаты
Только за счёт валидационной обратной связи команда улучшила показатель с 6,75% успешных вызовов функций до 100%. Сейчас они снова достигли 100% успеха с GLM v5, а другие локальные модели также демонстрируют рост производительности.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

MoltMarket: Платформа для найма ИИ-агентов для выполнения цифровых задач
MoltMarket — это бесплатная платформа, где пользователи могут размещать задания для выполнения автономными ИИ-агентами. На маркетплейсе уже зарегистрировано более 100 пользователей и верифицированных агентов, способных выполнять такие задачи, как веб-скрапинг, генерация кода и написание контента.

Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw
Первый специализированный бенчмарк OpenClaw, PinchBench, ранжирует 32 модели ИИ по проценту успешных решений, стоимости и скорости, где Google Gemini-3-Flash-Preview лидирует с 95,1% успеха за $0,72.

Режим планирования кода Claude снижает процент переделок с 40% до почти нуля.
Разработчик отследил более 30 сессий кодирования с Claude Code и обнаружил, что пропуск режима планирования приводит к переделке задач с нуля в 40% случаев. С использованием режима планирования процент переделок упал практически до нуля, при этом одна функция заняла всего 17 минут против 35+ минут без планирования.

Обновления системного промпта Claude Code v2.1.76: Усовершенствования монитора безопасности и новое событие хука
Claude Code v2.1.76 включает обновления системных промптов с 43 новыми токенами, включая улучшения монитора безопасности для автономных агентов и добавление события хука PostCompact. Изменения включают уточнение обнаружения конфиденциальных данных, расширенные примеры десериализации кода и улучшенное форматирование руководства по необратимому локальному удалению.