Desenvolvedor compartilha fluxo de trabalho híbrido de codificação com IA: Claude para planejamento, modelos locais para execução

Fluxo de trabalho híbrido de IA para codificação reduz custos na nuvem
Um desenvolvedor no r/LocalLLaMA compartilhou um fluxo de trabalho detalhado que combina modelos de IA na nuvem e locais para reduzir custos de tokens mantendo a qualidade da codificação. A abordagem aborda a percepção de que muitas tarefas de codificação não exigem modelos caros na nuvem.
A arquitetura do fluxo de trabalho
O sistema segue a lógica "Raciocine na nuvem, Execute localmente":
- Planejador (Claude 3.5 Sonnet): Recebe a tarefa e gera um arquivo
task_context.mdpreciso contendo instruções, caminhos de arquivos e lógica. Isso custa aproximadamente 300-500 tokens. - Codificador (Qwen2.5-Coder 30B local via Ollama): Recebe a especificação e o conteúdo real do arquivo para escrever o código. Isso é executado localmente sem custo.
- Validador: Um script Bash simples executa
tsc --noEmitoumypypara verificação de tipos. - Revisor (Qwen2.5-Coder 7B local): Executa em paralelo para verificar falhas lógicas óbvias.
- Correção automática: Se a compilação falhar, o log de erro retorna ao codificador local para 2-3 iterações.
Detalhes de implementação
Todo o pipeline é encapsulado em um conjunto de scripts Bash usando apenas jq e curl para comunicação com a API do Ollama. O sistema detecta automaticamente padrões de linguagem (TypeScript, Python, C++, etc.) com base na saída do planejador e não requer ambientes pesados de Python/Node.
O desenvolvedor observa que modelos locais (mesmo os de 30B) frequentemente falham em raciocínio arquitetural complexo, mas são surpreendentemente bons em execução quando recebem especificações extremamente claras.
Resultados e economia
Em um projeto TypeScript recente envolvendo 12 arquivos alterados:
- O uso do Claude foi limitado apenas à fase inicial de planejamento
- Os modelos locais lidaram com todo o resto: escrita de 12 arquivos, linting e revisão
- Economia total: aproximadamente 85% de redução de tokens em comparação com fazer tudo dentro do Claude Code CLI
O desenvolvedor disponibilizou os scripts em um repositório chamado ai-orchestrator no GitHub (nome de usuário: Mybono) para quem se interessar pelos detalhes de implementação.
📖 Read the full source: r/LocalLLaMA
👀 See Also

MiniMax Music 2.5 Gerador de Música IA Lançado com Controle de Áudio de Nível Estúdio
MiniMax Music 2.5 é um modelo de geração de música por IA que cria músicas de qualidade de estúdio com saída Hi-Fi de 44,1kHz, mais de 100 instrumentos e controle de precisão em nível de parágrafo usando mais de 14 tags estruturais para direcionar a estrutura da música.

OctoArch v5.0: Runtime B2B de Confiança Zero com Personas de IA Baseadas em JSON
OctoArch v5.0 é um runtime cognitivo B2B de confiança zero construído para casos de uso empresarial rigorosos, como extração fiscal/de faturas. Ele substitui prompts baseados em texto por personas de IA definidas por JSON e implementa isolamento de caminhos para prevenir ataques ao servidor.

OpenPlawd: Habilidade OpenClaw para Notas Automatizadas de Reuniões Plaud
OpenPlawd é uma habilidade do OpenClaw que processa automaticamente gravações do Plaud em notas de reunião estruturadas em HTML. Ele verifica contas do Plaud a cada hora, transcreve com Whisper ou OpenAI, divide arquivos grandes e gera notas com itens de ação através de um agente OpenClaw.

Habilidade de verificação de segurança para agentes de IA de codificação verifica implantações automaticamente
Um desenvolvedor criou um arquivo de habilidade que permite que agentes de codificação de IA verifiquem automaticamente suas próprias implantações em busca de arquivos .env expostos, portas abertas, cabeçalhos de segurança ausentes e código-fonte vazado. A verificação é executada após cada implantação e leva cerca de 30 segundos.