LLM Local como Subagente do Claude: Reduza Contexto

Um desenvolvedor no r/LocalLLaMA demonstra como usar o Claude Code para delegar tarefas a um LLM local rodando via LM Studio, reduzindo o uso de contexto do Claude mantendo o conteúdo dos arquivos local.

Como Funciona

O sistema usa um pequeno script Python (~120 linhas, apenas biblioteca padrão) que executa um loop de agente:

Você passa para o Claude uma descrição da tarefa sem o conteúdo do arquivo
O script envia para o endpoint /v1/chat/completions do LM Studio com definições de ferramentas read_file e list_dir
O modelo local chama essas ferramentas ele mesmo para ler os arquivos que precisa
O loop continua até produzir uma resposta final
O Claude vê apenas o resultado, não o conteúdo do arquivo

Exemplo de Uso

python3 agent_lm.py --dir /caminho/para/projeto "resuma solar-system.html"
# [turno 1] → read_file({'path': 'solar-system.html'})
# [turno 2] → Este arquivo HTML cria um sistema solar animado interativo...

O conteúdo do arquivo vai para o contexto do modelo local (testado com Qwen3.5 35B 4-bit via MLX no Apple Silicon), não para o do Claude.

Para que Serve

Resumo e explicação de código
Encontrar bugs
Geração de boilerplate / primeiro rascunho
Transformação e tradução de texto (testado com hebraico)
Tarefas de lógica e raciocínio (use a flag --think para problemas mais difíceis)

Para que Não Serve

Tarefas que exigem o contexto completo do Claude, como compreensão de múltiplos arquivos onde relacionamentos importam
Tarefas que precisam do histórico atual da conversa
Qualquer coisa onde a precisão seja crítica

O autor descreve como "um assistente de nível Haiku, não um substituto".

Configuração

LM Studio rodando localmente com o servidor API habilitado
Um script Python para o loop do agente, um para consultas simples apenas com prompt
Ambos conectados a um ~/.claude/CLAUDE.md global para que o Claude Code saiba oferecer delegação quando relevante
Sem servidor MCP, sem dependências pip, sem infraestrutura de plugin necessária
Recomendação: Adicione {%- set enable_thinking = false %} ao topo do template jinja - para a maioria das tarefas isso economiza tempo e tokens sem degradação de qualidade

O autor observa que teve ajuda do Claude para escrever o post, mas com supervisão e correções, e fica feliz em compartilhar os scripts se houver interesse.

📖 Leia a fonte completa: r/LocalLLaMA

Usando um LLM Local como Subagente de Código do Claude para Reduzir o Uso de Contexto

Como Funciona

Exemplo de Uso

Para que Serve

Para que Não Serve

Configuração

👀 See Also

Autoencoders de Linguagem Natural: Transformando Representações Internas de Claude em Texto

OpenClaw vs Hermes: Escolha o Agente de IA Auto-hospedado Certo Após Mais de 100 Implantações

Mercado MCP Construído com Claude Code Inclui Verificação de Segurança e Monetização

cc+ Aplicativo Desktop para Claude Code: Gerenciamento de Múltiplas Sessões e Orquestração de Frota