Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución

Flujo de trabajo híbrido de codificación con IA reduce costos en la nube
Un desarrollador en r/LocalLLaMA compartió un flujo de trabajo detallado que combina modelos de IA en la nube y locales para reducir los costos de tokens manteniendo la calidad de codificación. El enfoque aborda la comprensión de que muchas tareas de codificación no requieren modelos costosos en la nube.
La arquitectura del flujo de trabajo
El sistema sigue una lógica de "Razonar en la nube, Ejecutar localmente":
- Planificador (Claude 3.5 Sonnet): Recibe la tarea y genera un archivo
task_context.mdpreciso que contiene instrucciones, rutas de archivos y lógica. Esto cuesta aproximadamente 300-500 tokens. - Codificador (Qwen2.5-Coder 30B local a través de Ollama): Toma la especificación y el contenido real del archivo para escribir el código. Esto se ejecuta localmente sin costo.
- Validador: Un script simple de Bash ejecuta
tsc --noEmitomypypara la verificación de tipos. - Revisor (Qwen2.5-Coder 7B local): Se ejecuta en paralelo para verificar fallos lógicos obvios.
- Auto-corrección: Si la compilación falla, el registro de errores regresa al codificador local para 2-3 iteraciones.
Detalles de implementación
Toda la canalización está envuelta en un conjunto de scripts de Bash que usan solo jq y curl para comunicarse con la API de Ollama. El sistema detecta automáticamente los estándares del lenguaje (TypeScript, Python, C++, etc.) basándose en la salida del planificador y no requiere entornos pesados de Python/Node.
El desarrollador señala que los modelos locales (incluso los de 30B) a menudo fallan en razonamientos arquitectónicos complejos, pero son sorprendentemente buenos en la ejecución cuando se les dan especificaciones muy claras.
Resultados y ahorros
En un proyecto reciente de TypeScript que involucró 12 archivos modificados:
- El uso de Claude se limitó solo a la fase inicial de planificación
- Los modelos locales manejaron todo lo demás: escribir 12 archivos, verificación de estilo y revisión
- Ahorro total: aproximadamente un 85% de reducción de tokens en comparación con hacer todo dentro del CLI de Claude Code
El desarrollador ha hecho los scripts disponibles en un repositorio llamado ai-orchestrator en GitHub (nombre de usuario: Mybono) para aquellos interesados en los detalles de implementación.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Ouroboros Agrega Modo de Entrevista PM para Claude Code para Cerrar la Brecha de Especificaciones
Ouroboros ahora incluye un modo PM que ejecuta una entrevista guiada antes de pasar a Claude Code, haciendo preguntas como qué problema se está resolviendo, para quién es y qué restricciones importan. El resultado es un documento PRD/PM con objetivo, historias de usuario, restricciones, criterios de éxito, suposiciones y elementos diferidos.

Codev: Flujo de trabajo de agente de IA para 106 PR en 14 días
Codev es un sistema de código abierto que coordina múltiples agentes de IA mediante un flujo de trabajo estricto de Especificación→Planificación→Implementación→Revisión→PR, detectando 20 errores antes del envío y produciendo código calificado 1.2 puntos mejor en una escala de 10 puntos.

Qwen 3.6 27B F16 pasa la prueba de codificación de Pacman, pero las cuantizaciones de 8 bits fallan — Lecciones clave sobre plantillas y decodificación especulativa MTP
Un usuario crea de una sola vez un clon del Pacman con Qwen 3.6 27B F16: dos de tres intentos producen juegos casi perfectos. Las cuantificaciones de 8 bits fallan por completo. Notas detalladas sobre el ajuste de la plantilla de chat y las ganancias de velocidad con decodificación especulativa MTP.

Resumen comparativo de la inferencia rápida de LLM por Anthropic y OpenAI.
Anthropic y OpenAI han lanzado características distintas de 'modo rápido' para una inferencia más rápida de LLM, aprovechando OpenAI los chips de Cerebras para mayor velocidad.