Usar un LLM local como subagente de código de Claude para reducir el uso de contexto

Claude Code puede orquestar tareas delegándolas a un LLM local que se ejecuta en tu máquina, similar a cómo utiliza subagentes de Claude. Este enfoque mantiene el contenido de los archivos fuera del contexto de Claude: solo se devuelven el resumen y las ideas del modelo local.
Cómo Funciona
Un pequeño script de Python (~120 líneas, solo biblioteca estándar) ejecuta un bucle de agente:
- Pasas a Claude una descripción de la tarea sin contenido de archivo
- El script la envía al endpoint
/v1/chat/completionsde LM Studio con definiciones de herramientasread_fileylist_dir - El modelo local llama a esas herramientas por sí mismo para leer los archivos que necesita
- El bucle continúa hasta que produce una respuesta final
- Claude solo ve el resultado
Comando de ejemplo:
python3 agent_lm.py --dir /ruta/al/proyecto "resumir solar-system.html"
Esto resulta en:
- [turno 1] →
read_file({'path': 'solar-system.html'}) - [turno 2] → Este archivo HTML crea un sistema solar animado interactivo...
El contenido del archivo va al contexto del modelo local (probado con el contexto de Qwen), no al de Claude.
Casos de Uso y Limitaciones
Basado en pruebas con Qwen3.5 35B 4-bit vía MLX en Apple Silicon, este enfoque es bueno para:
- Resumen y explicación de código
- Búsqueda de errores
- Generación de código repetitivo / primer borrador
- Transformación y traducción de texto (probado con hebreo)
- Tareas lógicas y de razonamiento (usa la bandera
--thinkpara problemas más difíciles)
No es bueno para:
- Tareas que requieren el contexto completo de Claude
- Comprensión de múltiples archivos donde importan las relaciones
- Tareas que necesitan el historial de conversación actual
- Cualquier cosa donde la precisión sea crítica
Piensa en ello como un asistente de nivel Haiku, no como un reemplazo de Claude.
Requisitos de Configuración
- LM Studio ejecutándose localmente con el servidor API habilitado
- Un script de Python para el bucle del agente, otro para consultas simples solo con prompts
- Ambos conectados a un
~/.claude/CLAUDE.mdglobal para que Claude Code sepa ofrecer delegación cuando sea relevante - No se necesita servidor MCP, dependencias pip ni infraestructura de plugins
Consejo de configuración: Agrega {%- set enable_thinking = false %} al inicio de la plantilla Jinja. Para la mayoría de las tareas, no necesitas que el modelo local razone, y esto ahorra tiempo y tokens mientras aumenta la velocidad sin degradación real en la calidad para tales tareas.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Agent Forge: Herramienta de Código Abierto que Estructura Pipelines Multiagente para Claude Code
Agent Forge es una habilidad de Claude Code que genera tuberías de múltiples agentes completas a partir de descripciones de casos de uso. Crea archivos de instrucciones, scripts de orquestación, directorios de flujo de datos y configuraciones de GitHub Actions basándose en patrones observados en sistemas de múltiples agentes existentes.

La Reutilización de la Caché KV para Conversaciones Largas en Apple Silicon Logra una Aceleración de 200 Veces
Un desarrollador implementó la reutilización de caché KV basada en sesiones para la inferencia de LLM local utilizando el framework MLX de Apple, logrando una mejora de 200x en el tiempo hasta el primer token con un contexto de 100K. El enfoque mantiene la caché KV en memoria a lo largo de los turnos de conversación, procesando solo los tokens nuevos.

singularity-claude: Un Motor de Habilidades Autoevolutivo para Claude Code
singularity-claude es un complemento de código abierto para Claude Code que añade un bucle de evolución recursiva para prevenir la degradación de habilidades. Evalúa las ejecuciones de habilidades, repara automáticamente las de baja puntuación, cristaliza las versiones de alto rendimiento y detecta brechas de capacidad.

El Servidor MCP de ExposureGuard Agrega Escaneo de Seguridad de Dominios a Claude Desktop
Un desarrollador construyó un servidor MCP para escaneo de seguridad de dominios usando Claude Code, exponiendo cuatro herramientas que verifican SPF, DMARC, SSL, encabezados de seguridad, DNSSEC, puertos abiertos, MX y HTTPS. El servidor está disponible mediante pip install exposureguard-mcp con un nivel gratuito de 100 llamadas API por día.