Lokales LLM als Claude-Code-Subagent: Kontext sparen

Ein Entwickler auf r/LocalLLaMA zeigt, wie man Claude Code nutzen kann, um Aufgaben an ein lokales LLM zu delegieren, das über LM Studio läuft, und dabei den Kontextverbrauch von Claude reduziert, indem der Dateiinhalt lokal bleibt.

So funktioniert es

Das System verwendet ein kleines Python-Skript (etwa 120 Zeilen, nur Standardbibliothek), das eine Agentenschleife ausführt:

Man übergibt Claude eine Aufgabenbeschreibung ohne Dateiinhalt
Das Skript sendet diese an den /v1/chat/completions-Endpunkt von LM Studio mit Tool-Definitionen für read_file und list_dir
Das lokale Modell ruft diese Tools selbst auf, um die benötigten Dateien zu lesen
Die Schleife läuft weiter, bis eine endgültige Antwort erzeugt wird
Claude sieht nur das Ergebnis, nicht den Dateiinhalt

Beispielnutzung

python3 agent_lm.py --dir /pfad/zum/projekt "fasse solar-system.html zusammen"
# [Runde 1] → read_file({'path': 'solar-system.html'})
# [Runde 2] → Diese HTML-Datei erstellt ein interaktives animiertes Sonnensystem...

Der Dateiinhalt geht in den Kontext des lokalen Modells (getestet mit Qwen3.5 35B 4-bit via MLX auf Apple Silicon), nicht in den von Claude.

Wofür es geeignet ist

Code-Zusammenfassung und Erklärung
Fehlersuche
Boilerplate- / Erstentwurf-Generierung
Texttransformation und -übersetzung (mit Hebräisch getestet)
Logikaufgaben und Schlussfolgerungen (für schwierigere Probleme das Flag --think verwenden)

Wofür es nicht geeignet ist

Aufgaben, die den vollen Kontext von Claude erfordern, wie das Verständnis mehrerer Dateien, bei denen Beziehungen wichtig sind
Aufgaben, die den aktuellen Gesprächsverlauf benötigen
Alles, wo Genauigkeit kritisch ist

Der Autor beschreibt es als "einen Haiku-ähnlichen Assistenten, keinen Ersatz".

Einrichtung

LM Studio lokal laufen lassen mit aktiviertem API-Server
Ein Python-Skript für die Agentenschleife, eines für einfache nur-Prompt-Abfragen
Beide in eine globale ~/.claude/CLAUDE.md eingebunden, damit Claude Code weiß, wann Delegation angeboten werden soll
Kein MCP-Server, keine pip-Abhängigkeiten, keine Plugin-Infrastruktur nötig
Empfehlung: {%- set enable_thinking = false %} oben in die Jinja-Vorlage einfügen - für die meisten Aufgaben spart dies Zeit und Tokens ohne Qualitätseinbußen

Der Autor merkt an, dass Claude beim Schreiben des Beitrags geholfen hat, jedoch unter Aufsicht und mit Korrekturen, und ist bereit, die Skripte bei Interesse zu teilen.

📖 Read the full source: r/LocalLLaMA