AutoBe: Как слабые локальные LLM исправили архитектуру генератора AI-бэкенда

✍️ OpenClawRadar📅 Опубликовано: 27 февраля 2026 г.🔗 Source
AutoBe: Как слабые локальные LLM исправили архитектуру генератора AI-бэкенда
Ad

Что произошло

AutoBe — это открытый ИИ-агент, который генерирует полноценные бэкенд-приложения с использованием TypeScript, NestJS и Prisma. Изначально он достигал 100% успешной компиляции, но код был неподдерживаемым — не было повторного использования кода, поэтому любое небольшое изменение требовало перегенерации всего. Команда перестроила систему вокруг модульной генерации кода, что сразу же снизило показатель успеха до 40%.

Прорыв в отладке

Когда новая архитектура ввела зависимости между модулями, команда использовала намеренно слабые локальные LLM для поиска ошибок, о существовании которых они не подозревали. Модель qwen3-30b-a3b-thinking имела успех около 10% и выявляла неоднозначности в AST-схемах и некорректные структуры. Модель qwen3-next-80b-a3b-instruct имела успех около 20% и выявляла несоответствия типов и крайние случаи во вложенных отношениях.

Такой низкий показатель успеха оказался ценным: каждое исправление укрепляло всю систему. Когда схема достаточно точна, чтобы 30B-модель не могла её неверно интерпретировать, более мощные модели тоже не ошибаются. Этот подход также подчёркивает преимущество локальных LLM в стоимости — обнаружение крайних случаев требует сотен циклов генерация-компиляция-диагностика, что было бы непомерно дорого по ценам облачных API.

Ad

Архитектурный сдвиг

Команда перешла от инженерии промптов к проектированию схем с валидационной обратной связью. Они свели системные промпты почти к нулю и перенесли все ограничения в схемы вызова функций, позволяя валидационной обратной связи выполнять обучение. AutoBe использует три типа AST, которые особенно сложны для генерации LLM: AutoBeDatabase (модели Prisma, отношения, индексы), AutoBeOpenApi (схемы OpenAPI, конечные точки, DTO) и AutoBeTest (30+ типов выражений).

Эти структуры сложны, потому что включают неограниченные объединения типов, неограниченную глубину и рекурсивные ссылки. Например, AST компилятора включает такие типы, как IArrayLiteralExpression и IObjectLiteralExpression, которые содержат рекурсивные ссылки на IExpression[].

Результаты

Только за счёт валидационной обратной связи команда улучшила показатель с 6,75% успешных вызовов функций до 100%. Сейчас они снова достигли 100% успеха с GLM v5, а другие локальные модели также демонстрируют рост производительности.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

MoltMarket: Платформа для найма ИИ-агентов для выполнения цифровых задач
Инструменты

MoltMarket: Платформа для найма ИИ-агентов для выполнения цифровых задач

MoltMarket — это бесплатная платформа, где пользователи могут размещать задания для выполнения автономными ИИ-агентами. На маркетплейсе уже зарегистрировано более 100 пользователей и верифицированных агентов, способных выполнять такие задачи, как веб-скрапинг, генерация кода и написание контента.

OpenClawRadar
Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw
Инструменты

Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw

Первый специализированный бенчмарк OpenClaw, PinchBench, ранжирует 32 модели ИИ по проценту успешных решений, стоимости и скорости, где Google Gemini-3-Flash-Preview лидирует с 95,1% успеха за $0,72.

OpenClawRadar
Режим планирования кода Claude снижает процент переделок с 40% до почти нуля.
Инструменты

Режим планирования кода Claude снижает процент переделок с 40% до почти нуля.

Разработчик отследил более 30 сессий кодирования с Claude Code и обнаружил, что пропуск режима планирования приводит к переделке задач с нуля в 40% случаев. С использованием режима планирования процент переделок упал практически до нуля, при этом одна функция заняла всего 17 минут против 35+ минут без планирования.

OpenClawRadar
Обновления системного промпта Claude Code v2.1.76: Усовершенствования монитора безопасности и новое событие хука
Инструменты

Обновления системного промпта Claude Code v2.1.76: Усовершенствования монитора безопасности и новое событие хука

Claude Code v2.1.76 включает обновления системных промптов с 43 новыми токенами, включая улучшения монитора безопасности для автономных агентов и добавление события хука PostCompact. Изменения включают уточнение обнаружения конфиденциальных данных, расширенные примеры десериализации кода и улучшенное форматирование руководства по необратимому локальному удалению.

OpenClawRadar