Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución

✍️ OpenClawRadar📅 Publicado: 16 de abril de 2026🔗 Source
Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución
Ad

Flujo de trabajo híbrido de codificación con IA reduce costos en la nube

Un desarrollador en r/LocalLLaMA compartió un flujo de trabajo detallado que combina modelos de IA en la nube y locales para reducir los costos de tokens manteniendo la calidad de codificación. El enfoque aborda la comprensión de que muchas tareas de codificación no requieren modelos costosos en la nube.

La arquitectura del flujo de trabajo

El sistema sigue una lógica de "Razonar en la nube, Ejecutar localmente":

  • Planificador (Claude 3.5 Sonnet): Recibe la tarea y genera un archivo task_context.md preciso que contiene instrucciones, rutas de archivos y lógica. Esto cuesta aproximadamente 300-500 tokens.
  • Codificador (Qwen2.5-Coder 30B local a través de Ollama): Toma la especificación y el contenido real del archivo para escribir el código. Esto se ejecuta localmente sin costo.
  • Validador: Un script simple de Bash ejecuta tsc --noEmit o mypy para la verificación de tipos.
  • Revisor (Qwen2.5-Coder 7B local): Se ejecuta en paralelo para verificar fallos lógicos obvios.
  • Auto-corrección: Si la compilación falla, el registro de errores regresa al codificador local para 2-3 iteraciones.
Ad

Detalles de implementación

Toda la canalización está envuelta en un conjunto de scripts de Bash que usan solo jq y curl para comunicarse con la API de Ollama. El sistema detecta automáticamente los estándares del lenguaje (TypeScript, Python, C++, etc.) basándose en la salida del planificador y no requiere entornos pesados de Python/Node.

El desarrollador señala que los modelos locales (incluso los de 30B) a menudo fallan en razonamientos arquitectónicos complejos, pero son sorprendentemente buenos en la ejecución cuando se les dan especificaciones muy claras.

Resultados y ahorros

En un proyecto reciente de TypeScript que involucró 12 archivos modificados:

  • El uso de Claude se limitó solo a la fase inicial de planificación
  • Los modelos locales manejaron todo lo demás: escribir 12 archivos, verificación de estilo y revisión
  • Ahorro total: aproximadamente un 85% de reducción de tokens en comparación con hacer todo dentro del CLI de Claude Code

El desarrollador ha hecho los scripts disponibles en un repositorio llamado ai-orchestrator en GitHub (nombre de usuario: Mybono) para aquellos interesados en los detalles de implementación.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Ouroboros Agrega Modo de Entrevista PM para Claude Code para Cerrar la Brecha de Especificaciones
Herramientas

Ouroboros Agrega Modo de Entrevista PM para Claude Code para Cerrar la Brecha de Especificaciones

Ouroboros ahora incluye un modo PM que ejecuta una entrevista guiada antes de pasar a Claude Code, haciendo preguntas como qué problema se está resolviendo, para quién es y qué restricciones importan. El resultado es un documento PRD/PM con objetivo, historias de usuario, restricciones, criterios de éxito, suposiciones y elementos diferidos.

OpenClawRadar
Codev: Flujo de trabajo de agente de IA para 106 PR en 14 días
Herramientas

Codev: Flujo de trabajo de agente de IA para 106 PR en 14 días

Codev es un sistema de código abierto que coordina múltiples agentes de IA mediante un flujo de trabajo estricto de Especificación→Planificación→Implementación→Revisión→PR, detectando 20 errores antes del envío y produciendo código calificado 1.2 puntos mejor en una escala de 10 puntos.

OpenClawRadar
Qwen 3.6 27B F16 pasa la prueba de codificación de Pacman, pero las cuantizaciones de 8 bits fallan — Lecciones clave sobre plantillas y decodificación especulativa MTP
Herramientas

Qwen 3.6 27B F16 pasa la prueba de codificación de Pacman, pero las cuantizaciones de 8 bits fallan — Lecciones clave sobre plantillas y decodificación especulativa MTP

Un usuario crea de una sola vez un clon del Pacman con Qwen 3.6 27B F16: dos de tres intentos producen juegos casi perfectos. Las cuantificaciones de 8 bits fallan por completo. Notas detalladas sobre el ajuste de la plantilla de chat y las ganancias de velocidad con decodificación especulativa MTP.

OpenClawRadar
Resumen comparativo de la inferencia rápida de LLM por Anthropic y OpenAI.
Herramientas

Resumen comparativo de la inferencia rápida de LLM por Anthropic y OpenAI.

Anthropic y OpenAI han lanzado características distintas de 'modo rápido' para una inferencia más rápida de LLM, aprovechando OpenAI los chips de Cerebras para mayor velocidad.

OpenClawRadar