LLM local como subagente de Claude: reduce uso de contexto

Un desarrollador en r/LocalLLaMA demuestra cómo usar Claude Code para delegar tareas a un LLM local que se ejecuta mediante LM Studio, reduciendo el uso del contexto de Claude al mantener el contenido de los archivos localmente.

Cómo funciona

El sistema utiliza un pequeño script de Python (~120 líneas, solo biblioteca estándar) que ejecuta un bucle de agente:

Le pasas a Claude una descripción de la tarea sin el contenido del archivo
El script lo envía al endpoint /v1/chat/completions de LM Studio con definiciones de herramientas read_file y list_dir
El modelo local llama a esas herramientas por sí mismo para leer los archivos que necesita
El bucle continúa hasta que produce una respuesta final
Claude solo ve el resultado, no el contenido del archivo

Ejemplo de uso

python3 agent_lm.py --dir /ruta/al/proyecto "resumir solar-system.html"
# [turno 1] → read_file({'path': 'solar-system.html'})
# [turno 2] → Este archivo HTML crea un sistema solar animado interactivo...

El contenido del archivo va al contexto del modelo local (probado con Qwen3.5 35B 4-bit mediante MLX en Apple Silicon), no al de Claude.

Para qué sirve

Resumen y explicación de código
Búsqueda de errores
Generación de plantillas / primeros borradores
Transformación y traducción de texto (probado con hebreo)
Tareas de lógica y razonamiento (usa la bandera --think para problemas más difíciles)

Para qué no sirve

Tareas que requieren el contexto completo de Claude, como la comprensión de múltiples archivos donde importan las relaciones
Tareas que necesitan el historial de conversación actual
Cualquier cosa donde la precisión sea crítica

El autor lo describe como "un asistente de nivel Haiku, no un reemplazo".

Configuración

LM Studio ejecutándose localmente con el servidor API habilitado
Un script de Python para el bucle del agente, otro para consultas simples solo de prompt
Ambos conectados a un ~/.claude/CLAUDE.md global para que Claude Code sepa ofrecer delegación cuando sea relevante
No se necesita servidor MCP, dependencias de pip ni infraestructura de plugins
Recomendación: Agregar {%- set enable_thinking = false %} al inicio de la plantilla jinja - para la mayoría de las tareas esto ahorra tiempo y tokens sin degradar la calidad

El autor señala que hizo que Claude ayudara a escribir la publicación pero con supervisión y correcciones, y está feliz de compartir los scripts si hay interés.

📖 Read the full source: r/LocalLLaMA

Usar un LLM local como subagente de código de Claude para reducir el uso de contexto

Cómo funciona

Ejemplo de uso

Para qué sirve

Para qué no sirve

Configuración

👀 Ver también

Claude Desktop + Blender via MCP: Flujo de trabajo 3D en tiempo real cierra el bucle de retroalimentación

El Complemento OpenClaw Memos Aborda Problemas de Transferencia de Memoria en Agentes de Codificación con IA

Equipo Cerebro: Un Complemento de Memoria Compartida para Claude Code que Almacena el Conocimiento del Equipo en Git

Gestión Automatizada del Estado de Sesión para la Transferencia de Código de Claude