O que Quebra ao Executar Agentes de Codificação em Modelos Locais Pequenos

Após semanas executando tarefas reais de codificação com múltiplos arquivos através de pequenos modelos locais (sub-7B) e pequenos modelos em nuvem em camadas gratuitas, um usuário do Reddit documentou pontos de falha consistentes além do ruído típico de benchmarks. Aqui está o que realmente quebra.
Fences de Markdown São a Falha Mais Comum
Mesmo com "produza apenas código bruto, sem formatação markdown" no prompt do sistema, a maioria dos modelos envolve as respostas em três crases. Qwen3.5:9b e Gemma4:e4b seguem a instrução de forma mais consistente, mas ainda falham ocasionalmente. A solução não é melhorar o prompt — é remover as fences no pós-processamento como padrão.
Saída Estruturada Não É Confiável Abaixo de 7B
Quando agentes precisam de JSON para listas de tarefas ou tipos de ação, modelos pequenos falham com muito mais frequência do que os benchmarks sugerem. Benchmarks testam JSON válido; uso real adiciona instruções complexas de múltiplas etapas com casos extremos. Gemma4:e4b é o mais confiável entre os modelos locais; Qwen3.5:9B fica perto. Codellama tem dificuldades. Na nuvem, Llama 3.3 70B no Groq é extremamente sólido. Solução prática: validar JSON, tentar novamente uma vez com instrução explícita e, em seguida, recorrer a um parser permissivo que extrai JSON de prosa.
Modelos Editam o Arquivo Errado
Dê a um modelo pequeno a tarefa de renomear validateToken para verifyToken com um mapa de projeto de nomes semelhantes, e ele pode renomear validateUser ou modificar o arquivo errado completamente. O modelo trata o mapa do projeto como sugestões, não como restrições. Solução na camada de orquestração: validar se os caminhos dos arquivos existem e se os nomes das funções estão nos arquivos reivindicados. Lançar erros em caso de incompatibilidade — modelos pequenos mentem com confiança.
Classificação de Pergunta vs. Ação
Perguntar "quantas linhas tem o utils.js" deve ser apenas leitura. Mas se o executor tem apenas um modo de edição, ele editará o arquivo para conter a resposta. A solução: o planejador deve classificar as solicitações em tipos de ação antes da execução. Consultas somente leitura são roteadas para um caminho de código separado que nunca toca no disco.
O Que Funciona Melhor do Que o Esperado
- Controle de orçamento de tokens no código: Contar tokens antes de cada chamada; modelos pequenos não têm conceito de limites de contexto e não serão breves se confiarem.
- Isolamento por arquivo: Enviar um arquivo por vez é dramaticamente mais confiável do que dois — modelos misturam correções.
- Memória estilo síntese: Armazenar um resumo de uma frase do que o modelo fez, não a lista completa de tarefas. Funciona para desfazer e solicitações aditivas.
Ainda Descobrindo
Se algum modelo local abaixo de 7B é viável para um papel de agente — o autor não encontrou nenhum que não falhe em saída estruturada com frequência suficiente. Kit de teste open-source em github.com/razvannec para contribuições.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM
Um advogado que está construindo um servidor local de IA para trabalho jurídico compartilha resultados de testes do vLLM em 10 GPUs Tesla V100 SXM2 de 32 GB, detalhando o que funciona (FP16 não quantizado, bitsandbytes 4-bit) e o que não funciona (GPTQ, AWQ, FlashAttention2) na arquitetura Volta.

Pare de Perguntar Qual Modelo de IA Usar: Roteie Tarefas para os Níveis Haiku, Sonnet e Opus
Use pelo menos três modelos por tipo de tarefa: nível Haiku para ler/resumir, nível Sonnet para escrever código, e nível Opus apenas para refatorações multiarquivo e depuração. A configuração de um usuário direciona 40% para modelos baratos, 35% para intermediários, 25% para os mais avançados, custando cerca de $30-40/mês.

Usando a IA como Parceira Cognitiva em vez de Fábrica de Código
Uma postagem no Reddit propõe um prompt de sistema chamado 'Cognitive Authorship Copilot' que força a IA a atuar como um parceiro de programação em par, em vez de um gerador autônomo de soluções, com três níveis de intervenção baseados na complexidade da tarefa.

Corrigindo o inchaço de prompts e loops de resposta lentos no OpenClaw
Usuários enfrentando longos atrasos desde 2026.4.26 podem recuperar desempenho reduzindo o inchaço do contexto: corte arquivos sempre injetados, limite habilidades visíveis e evite colar saídas enormes de ferramentas no chat principal.