LLM Local Como Subagente de Código do Claude: Reduza Contexto

O Claude Code pode orquestrar tarefas delegando para um LLM local executado em sua máquina, semelhante a como usa subagentes do Claude. Essa abordagem mantém o conteúdo dos arquivos fora do contexto do Claude—apenas o resumo e as percepções do modelo local são repassados.

Como Funciona

Um pequeno script Python (~120 linhas, apenas biblioteca padrão) executa um loop de agente:

Você passa ao Claude uma descrição da tarefa sem o conteúdo do arquivo
O script a envia para o endpoint /v1/chat/completions do LM Studio com definições de ferramentas read_file e list_dir
O modelo local chama essas ferramentas para ler os arquivos de que precisa
O loop continua até produzir uma resposta final
O Claude vê apenas o resultado

Exemplo de comando:

python3 agent_lm.py --dir /caminho/para/projeto "resumir solar-system.html"

Isso resulta em:

[turno 1] → read_file({'path': 'solar-system.html'})
[turno 2] → Este arquivo HTML cria um sistema solar animado interativo...

O conteúdo do arquivo vai para o contexto do modelo local (testado com o contexto do Qwen), não do Claude.

Casos de Uso e Limitações

Com base em testes com Qwen3.5 35B 4-bit via MLX no Apple Silicon, essa abordagem é boa para:

Resumo e explicação de código
Encontrar bugs
Geração de boilerplate / primeiro rascunho
Transformação e tradução de texto (testado com hebraico)
Tarefas de lógica e raciocínio (use a flag --think para problemas mais difíceis)

Não é bom para:

Tarefas que exigem o contexto completo do Claude
Compreensão de múltiplos arquivos onde relacionamentos importam
Tarefas que precisam do histórico atual da conversa
Qualquer coisa onde a precisão seja crítica

Pense nisso como um assistente de nível Haiku, não como um substituto para o Claude.

Requisitos de Configuração

LM Studio executando localmente com o servidor de API habilitado
Um script Python para o loop do agente, outro para consultas simples apenas com prompt
Ambos conectados a um ~/.claude/CLAUDE.md global para que o Claude Code saiba oferecer delegação quando relevante
Nenhum servidor MCP, nenhuma dependência pip, nenhuma infraestrutura de plugin necessária

Dica de configuração: Adicione {%- set enable_thinking = false %} ao topo do template Jinja. Para a maioria das tarefas, você não precisa que o modelo local raciocine, e isso economiza tempo e tokens enquanto aumenta a velocidade sem degradação real na qualidade para tais tarefas.

📖 Leia a fonte completa: r/ClaudeAI

Usando um LLM Local como Subagente de Código do Claude para Reduzir o Uso de Contexto

Como Funciona

Casos de Uso e Limitações

Requisitos de Configuração

👀 See Also

LORE.md: Um Padrão Aberto para Extrair Conhecimento Estruturado de Conversas com IA

VTCode: Um Agente de Codificação TUI em Rust que Agressivamente Apara Contexto com Fragmentação em Nível de AST

Claude Code v2.1.126: Seletor de Modelo, Limpeza de Projeto, Correções no OAuth e Melhorias de Segurança

Claude-voice: TTS Local com Destaque de Palavras para Código Claude