Usando um LLM Local como Subagente de Código do Claude para Reduzir o Uso de Contexto

Um desenvolvedor no r/LocalLLaMA demonstra como usar o Claude Code para delegar tarefas a um LLM local rodando via LM Studio, reduzindo o uso de contexto do Claude mantendo o conteúdo dos arquivos local.
Como Funciona
O sistema usa um pequeno script Python (~120 linhas, apenas biblioteca padrão) que executa um loop de agente:
- Você passa para o Claude uma descrição da tarefa sem o conteúdo do arquivo
- O script envia para o endpoint
/v1/chat/completionsdo LM Studio com definições de ferramentasread_fileelist_dir - O modelo local chama essas ferramentas ele mesmo para ler os arquivos que precisa
- O loop continua até produzir uma resposta final
- O Claude vê apenas o resultado, não o conteúdo do arquivo
Exemplo de Uso
python3 agent_lm.py --dir /caminho/para/projeto "resuma solar-system.html"
# [turno 1] → read_file({'path': 'solar-system.html'})
# [turno 2] → Este arquivo HTML cria um sistema solar animado interativo...
O conteúdo do arquivo vai para o contexto do modelo local (testado com Qwen3.5 35B 4-bit via MLX no Apple Silicon), não para o do Claude.
Para que Serve
- Resumo e explicação de código
- Encontrar bugs
- Geração de boilerplate / primeiro rascunho
- Transformação e tradução de texto (testado com hebraico)
- Tarefas de lógica e raciocínio (use a flag
--thinkpara problemas mais difíceis)
Para que Não Serve
- Tarefas que exigem o contexto completo do Claude, como compreensão de múltiplos arquivos onde relacionamentos importam
- Tarefas que precisam do histórico atual da conversa
- Qualquer coisa onde a precisão seja crítica
O autor descreve como "um assistente de nível Haiku, não um substituto".
Configuração
- LM Studio rodando localmente com o servidor API habilitado
- Um script Python para o loop do agente, um para consultas simples apenas com prompt
- Ambos conectados a um
~/.claude/CLAUDE.mdglobal para que o Claude Code saiba oferecer delegação quando relevante - Sem servidor MCP, sem dependências pip, sem infraestrutura de plugin necessária
- Recomendação: Adicione
{%- set enable_thinking = false %}ao topo do template jinja - para a maioria das tarefas isso economiza tempo e tokens sem degradação de qualidade
O autor observa que teve ajuda do Claude para escrever o post, mas com supervisão e correções, e fica feliz em compartilhar os scripts se houver interesse.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Autoencoders de Linguagem Natural: Transformando Representações Internas de Claude em Texto
O Transformer Circuits Thread publica Natural Language Autoencoders que decodificam as ativações internas do Claude em texto legível. Repositório GitHub e demonstração interativa disponíveis.

OpenClaw vs Hermes: Escolha o Agente de IA Auto-hospedado Certo Após Mais de 100 Implantações
Após implantar mais de 100 agentes de IA para clientes, um usuário do Reddit compartilha lições difíceis: OpenClaw (149K estrelas) é o cavalo de batalha confiável para frotas únicas/pequenas; Hermes se destaca na orquestração de múltiplos agentes, mas tem uma comunidade menor.

Mercado MCP Construído com Claude Code Inclui Verificação de Segurança e Monetização
Um desenvolvedor criou mcp-marketplace.io usando Claude Code para 95% da base de código, criando um mercado curado com verificação de segurança para mais de 2.200 servidores MCP e opções de monetização para criadores.

cc+ Aplicativo Desktop para Claude Code: Gerenciamento de Múltiplas Sessões e Orquestração de Frota
cc+ é um aplicativo de desktop de código aberto para Claude Code, construído sobre o Claude Agent SDK, disponível para macOS e Linux. Ele oferece abas de múltiplas sessões, visualização em tempo real da árvore de atividades, pontuação de segurança, aplicação de fluxos de trabalho e capacidades de orquestração de frota.