Flujo híbrido de codificación con IA: Claude + modelos locales

Flujo de trabajo híbrido de codificación con IA reduce costos en la nube

Un desarrollador en r/LocalLLaMA compartió un flujo de trabajo detallado que combina modelos de IA en la nube y locales para reducir los costos de tokens manteniendo la calidad de codificación. El enfoque aborda la comprensión de que muchas tareas de codificación no requieren modelos costosos en la nube.

La arquitectura del flujo de trabajo

El sistema sigue una lógica de "Razonar en la nube, Ejecutar localmente":

Planificador (Claude 3.5 Sonnet): Recibe la tarea y genera un archivo task_context.md preciso que contiene instrucciones, rutas de archivos y lógica. Esto cuesta aproximadamente 300-500 tokens.
Codificador (Qwen2.5-Coder 30B local a través de Ollama): Toma la especificación y el contenido real del archivo para escribir el código. Esto se ejecuta localmente sin costo.
Validador: Un script simple de Bash ejecuta tsc --noEmit o mypy para la verificación de tipos.
Revisor (Qwen2.5-Coder 7B local): Se ejecuta en paralelo para verificar fallos lógicos obvios.
Auto-corrección: Si la compilación falla, el registro de errores regresa al codificador local para 2-3 iteraciones.

Detalles de implementación

Toda la canalización está envuelta en un conjunto de scripts de Bash que usan solo jq y curl para comunicarse con la API de Ollama. El sistema detecta automáticamente los estándares del lenguaje (TypeScript, Python, C++, etc.) basándose en la salida del planificador y no requiere entornos pesados de Python/Node.

El desarrollador señala que los modelos locales (incluso los de 30B) a menudo fallan en razonamientos arquitectónicos complejos, pero son sorprendentemente buenos en la ejecución cuando se les dan especificaciones muy claras.

Resultados y ahorros

En un proyecto reciente de TypeScript que involucró 12 archivos modificados:

El uso de Claude se limitó solo a la fase inicial de planificación
Los modelos locales manejaron todo lo demás: escribir 12 archivos, verificación de estilo y revisión
Ahorro total: aproximadamente un 85% de reducción de tokens en comparación con hacer todo dentro del CLI de Claude Code

El desarrollador ha hecho los scripts disponibles en un repositorio llamado ai-orchestrator en GitHub (nombre de usuario: Mybono) para aquellos interesados en los detalles de implementación.

📖 Read the full source: r/LocalLLaMA

Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución

Flujo de trabajo híbrido de codificación con IA reduce costos en la nube

La arquitectura del flujo de trabajo

Detalles de implementación

Resultados y ahorros

👀 Ver también

BetterClaw vs OpenClaw: Comparación de Llamadas a Herramientas, Salidas Estructuradas y Control de Flujo de Trabajo

La herramienta CLI de Relay guarda el contexto de la sesión de Claude cuando hay límites de tasa.

Arquitectura de Chat Paralelo Claude para Desarrollo en Next.js

Extractor Lightfeed: Biblioteca TypeScript para Extracción Robusta de Datos Web con LLMs