5 Falhas ao Executar Agentes de Codificação em Modelos Locais Pequenos

Após semanas executando tarefas reais de codificação com múltiplos arquivos através de pequenos modelos locais (sub-7B) e pequenos modelos em nuvem em camadas gratuitas, um usuário do Reddit documentou pontos de falha consistentes além do ruído típico de benchmarks. Aqui está o que realmente quebra.

Fences de Markdown São a Falha Mais Comum

Mesmo com "produza apenas código bruto, sem formatação markdown" no prompt do sistema, a maioria dos modelos envolve as respostas em três crases. Qwen3.5:9b e Gemma4:e4b seguem a instrução de forma mais consistente, mas ainda falham ocasionalmente. A solução não é melhorar o prompt — é remover as fences no pós-processamento como padrão.

Saída Estruturada Não É Confiável Abaixo de 7B

Quando agentes precisam de JSON para listas de tarefas ou tipos de ação, modelos pequenos falham com muito mais frequência do que os benchmarks sugerem. Benchmarks testam JSON válido; uso real adiciona instruções complexas de múltiplas etapas com casos extremos. Gemma4:e4b é o mais confiável entre os modelos locais; Qwen3.5:9B fica perto. Codellama tem dificuldades. Na nuvem, Llama 3.3 70B no Groq é extremamente sólido. Solução prática: validar JSON, tentar novamente uma vez com instrução explícita e, em seguida, recorrer a um parser permissivo que extrai JSON de prosa.

Modelos Editam o Arquivo Errado

Dê a um modelo pequeno a tarefa de renomear validateToken para verifyToken com um mapa de projeto de nomes semelhantes, e ele pode renomear validateUser ou modificar o arquivo errado completamente. O modelo trata o mapa do projeto como sugestões, não como restrições. Solução na camada de orquestração: validar se os caminhos dos arquivos existem e se os nomes das funções estão nos arquivos reivindicados. Lançar erros em caso de incompatibilidade — modelos pequenos mentem com confiança.

Classificação de Pergunta vs. Ação

Perguntar "quantas linhas tem o utils.js" deve ser apenas leitura. Mas se o executor tem apenas um modo de edição, ele editará o arquivo para conter a resposta. A solução: o planejador deve classificar as solicitações em tipos de ação antes da execução. Consultas somente leitura são roteadas para um caminho de código separado que nunca toca no disco.

O Que Funciona Melhor do Que o Esperado

Controle de orçamento de tokens no código: Contar tokens antes de cada chamada; modelos pequenos não têm conceito de limites de contexto e não serão breves se confiarem.
Isolamento por arquivo: Enviar um arquivo por vez é dramaticamente mais confiável do que dois — modelos misturam correções.
Memória estilo síntese: Armazenar um resumo de uma frase do que o modelo fez, não a lista completa de tarefas. Funciona para desfazer e solicitações aditivas.

Ainda Descobrindo

Se algum modelo local abaixo de 7B é viável para um papel de agente — o autor não encontrou nenhum que não falhe em saída estruturada com frequência suficiente. Kit de teste open-source em github.com/razvannec para contribuições.

📖 Leia a fonte completa: r/LocalLLaMA