AutoBe: Cómo LLMs Locales Débiles Arreglaron un Generador Backend IA

Qué Sucedió

AutoBe es un agente de IA de código abierto que genera aplicaciones backend completas utilizando TypeScript, NestJS y Prisma. Inicialmente, logró un 100% de éxito en compilación, pero el código era imposible de mantener—no había reutilización de código, por lo que cada pequeño cambio requería regenerar todo. El equipo reconstruyó el sistema alrededor de la generación modular de código, lo que inmediatamente hizo caer la tasa de éxito al 40%.

El Avance en la Depuración

Cuando la nueva arquitectura introdujo dependencias entre módulos, el equipo usó LLMs locales intencionalmente débiles para encontrar errores que no sabían que existían. El modelo qwen3-30b-a3b-thinking tuvo aproximadamente un 10% de tasa de éxito y expuso ambigüedades en los esquemas AST y estructuras malformadas. El modelo qwen3-next-80b-a3b-instruct tuvo aproximadamente un 20% de tasa de éxito y reveló incompatibilidades de tipos y casos extremos en relaciones anidadas.

Esa baja tasa de éxito fue valiosa: cada corrección fortaleció todo el sistema. Cuando un esquema es lo suficientemente preciso como para que un modelo de 30B no pueda malinterpretarlo, los modelos más fuertes tampoco se equivocarán. Este enfoque también resalta la ventaja de costo de los LLMs locales—descubrir casos extremos requiere cientos de ciclos de generación-compilación-diagnóstico, lo que sería prohibitivamente caro a precios de API en la nube.

Cambio Arquitectónico

El equipo pasó de la ingeniería de prompts al diseño de esquemas con retroalimentación de validación. Redujeron los prompts del sistema casi a nada y trasladaron todas las restricciones a esquemas de llamadas a funciones, dejando que la retroalimentación de validación hiciera la enseñanza. AutoBe utiliza tres tipos AST que son particularmente desafiantes para que los LLMs generen: AutoBeDatabase (modelos Prisma, relaciones, índices), AutoBeOpenApi (esquemas OpenAPI, endpoints, DTOs) y AutoBeTest (más de 30 tipos de expresiones).

Estas estructuras son difíciles porque involucran tipos de unión ilimitados, profundidad ilimitada y referencias recursivas. Por ejemplo, el AST del compilador incluye tipos como IArrayLiteralExpression e IObjectLiteralExpression que contienen referencias recursivas a IExpression[].

Resultados

Solo a través de la retroalimentación de validación, el equipo mejoró del 6.75% de éxito bruto en llamadas a funciones al 100%. Ahora están de vuelta al 100% de éxito con GLM v5, y otros modelos locales están mejorando en rendimiento.

📖 Read the full source: r/LocalLLaMA

AutoBe: Cómo los LLM Locales Débiles Arreglaron la Arquitectura de un Generador de Backend de IA

Qué Sucedió

El Avance en la Depuración

Cambio Arquitectónico

Resultados

👀 Ver también

Voygr lanza la API de Validación de Negocios para Inteligencia de Lugares Nuevos

Bernstein: Un orquestador similar a Kubernetes para agentes de codificación de IA con verificación y políticas de modelos.

Toothcomb: Verificador de hechos de voz en tiempo real de código abierto creado con las API de Claude Opus y Sonnet

Google Workspace CLI incluye la guía de configuración de OpenClaw en la documentación.