Reducir uso de contexto Claude con LLM local

Claude Code puede orquestar tareas delegándolas a un LLM local que se ejecuta en tu máquina, similar a cómo utiliza subagentes de Claude. Este enfoque mantiene el contenido de los archivos fuera del contexto de Claude: solo se devuelven el resumen y las ideas del modelo local.

Cómo Funciona

Un pequeño script de Python (~120 líneas, solo biblioteca estándar) ejecuta un bucle de agente:

Pasas a Claude una descripción de la tarea sin contenido de archivo
El script la envía al endpoint /v1/chat/completions de LM Studio con definiciones de herramientas read_file y list_dir
El modelo local llama a esas herramientas por sí mismo para leer los archivos que necesita
El bucle continúa hasta que produce una respuesta final
Claude solo ve el resultado

Comando de ejemplo:

python3 agent_lm.py --dir /ruta/al/proyecto "resumir solar-system.html"

Esto resulta en:

[turno 1] → read_file({'path': 'solar-system.html'})
[turno 2] → Este archivo HTML crea un sistema solar animado interactivo...

El contenido del archivo va al contexto del modelo local (probado con el contexto de Qwen), no al de Claude.

Casos de Uso y Limitaciones

Basado en pruebas con Qwen3.5 35B 4-bit vía MLX en Apple Silicon, este enfoque es bueno para:

Resumen y explicación de código
Búsqueda de errores
Generación de código repetitivo / primer borrador
Transformación y traducción de texto (probado con hebreo)
Tareas lógicas y de razonamiento (usa la bandera --think para problemas más difíciles)

No es bueno para:

Tareas que requieren el contexto completo de Claude
Comprensión de múltiples archivos donde importan las relaciones
Tareas que necesitan el historial de conversación actual
Cualquier cosa donde la precisión sea crítica

Piensa en ello como un asistente de nivel Haiku, no como un reemplazo de Claude.

Requisitos de Configuración

LM Studio ejecutándose localmente con el servidor API habilitado
Un script de Python para el bucle del agente, otro para consultas simples solo con prompts
Ambos conectados a un ~/.claude/CLAUDE.md global para que Claude Code sepa ofrecer delegación cuando sea relevante
No se necesita servidor MCP, dependencias pip ni infraestructura de plugins

Consejo de configuración: Agrega {%- set enable_thinking = false %} al inicio de la plantilla Jinja. Para la mayoría de las tareas, no necesitas que el modelo local razone, y esto ahorra tiempo y tokens mientras aumenta la velocidad sin degradación real en la calidad para tales tareas.

📖 Read the full source: r/ClaudeAI

Usar un LLM local como subagente de código de Claude para reducir el uso de contexto

Cómo Funciona

Casos de Uso y Limitaciones

Requisitos de Configuración

👀 Ver también

La Aplicación de Escritorio de Claude Agrega la Función de Proyectos a la Interfaz de Trabajo en Equipo

Tether: Un Servidor MCP para Compartir Contexto Entre Modelos de IA a través de SQLite

Engram: Plugin de Memoria Híbrida para Agentes OpenClaw — Búsqueda Vectorial + Semántica con Decaimiento

Habilidad de Tendr: Operaciones CLI Determinísticas para la Gestión de Memoria del Agente