Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

Ein Entwickler auf r/LocalLLaMA zeigt, wie man Claude Code nutzen kann, um Aufgaben an ein lokales LLM zu delegieren, das über LM Studio läuft, und dabei den Kontextverbrauch von Claude reduziert, indem der Dateiinhalt lokal bleibt.
So funktioniert es
Das System verwendet ein kleines Python-Skript (etwa 120 Zeilen, nur Standardbibliothek), das eine Agentenschleife ausführt:
- Man übergibt Claude eine Aufgabenbeschreibung ohne Dateiinhalt
- Das Skript sendet diese an den
/v1/chat/completions-Endpunkt von LM Studio mit Tool-Definitionen fürread_fileundlist_dir - Das lokale Modell ruft diese Tools selbst auf, um die benötigten Dateien zu lesen
- Die Schleife läuft weiter, bis eine endgültige Antwort erzeugt wird
- Claude sieht nur das Ergebnis, nicht den Dateiinhalt
Beispielnutzung
python3 agent_lm.py --dir /pfad/zum/projekt "fasse solar-system.html zusammen"
# [Runde 1] → read_file({'path': 'solar-system.html'})
# [Runde 2] → Diese HTML-Datei erstellt ein interaktives animiertes Sonnensystem...
Der Dateiinhalt geht in den Kontext des lokalen Modells (getestet mit Qwen3.5 35B 4-bit via MLX auf Apple Silicon), nicht in den von Claude.
Wofür es geeignet ist
- Code-Zusammenfassung und Erklärung
- Fehlersuche
- Boilerplate- / Erstentwurf-Generierung
- Texttransformation und -übersetzung (mit Hebräisch getestet)
- Logikaufgaben und Schlussfolgerungen (für schwierigere Probleme das Flag
--thinkverwenden)
Wofür es nicht geeignet ist
- Aufgaben, die den vollen Kontext von Claude erfordern, wie das Verständnis mehrerer Dateien, bei denen Beziehungen wichtig sind
- Aufgaben, die den aktuellen Gesprächsverlauf benötigen
- Alles, wo Genauigkeit kritisch ist
Der Autor beschreibt es als "einen Haiku-ähnlichen Assistenten, keinen Ersatz".
Einrichtung
- LM Studio lokal laufen lassen mit aktiviertem API-Server
- Ein Python-Skript für die Agentenschleife, eines für einfache nur-Prompt-Abfragen
- Beide in eine globale
~/.claude/CLAUDE.mdeingebunden, damit Claude Code weiß, wann Delegation angeboten werden soll - Kein MCP-Server, keine pip-Abhängigkeiten, keine Plugin-Infrastruktur nötig
- Empfehlung:
{%- set enable_thinking = false %}oben in die Jinja-Vorlage einfügen - für die meisten Aufgaben spart dies Zeit und Tokens ohne Qualitätseinbußen
Der Autor merkt an, dass Claude beim Schreiben des Beitrags geholfen hat, jedoch unter Aufsicht und mit Korrekturen, und ist bereit, die Skripte bei Interesse zu teilen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Qhatu: Plattform verwandelt GitHub-Repos in nutzungsbasierte Micro-SaaS mit Claude
Qhatu ist eine Plattform, die ein GitHub-Repository übernimmt und es als nutzungsabhängiges Micro-SaaS mit generiertem Frontend und integrierter Zahlungsabwicklung bereitstellt. Das System nutzt Anthropic-APIs, um Code zu analysieren, Dockerfiles zu generieren und Shop-Oberflächen zu erstellen.

Inoffizieller Ultrahuman Ring MCP Server für die Integration von KI-Agenten
Ein von der Community entwickelter MCP-Server kapselt die Ultrahuman Partner API und ermöglicht es KI-Coding-Agents, direkt über strukturierte Datenabfragen auf Ring- und CGM-Metriken wie Schlaf, HRV, Glukose und Recovery-Scores zuzugreifen.

Lokale LLM-Leistungsbenchmarks auf dem Mac Mini mit OpenClaw und LM Studio
Ein Reddit-Nutzer veröffentlichte Leistungsdaten für das lokale Ausführen des Unsloth gpt-oss-20b-Q4_K_S.gguf-Modells auf einem Mac Mini mit 32 GB RAM und erreichte 34 Token/Sekunde mit einer Zeit bis zum ersten Token von 0,7 Sekunden unter Verwendung von OpenClaw 2026.3.8 und LM Studio 0.4.6+1.

Skales: Desktop-KI-Agent mit Ollama-Unterstützung, 300 MB Leerlauf-RAM
Skales ist eine native Electron-Desktop-App, die einen autonomen KI-Agenten bereitstellt, mit .exe/.dmg-Installern arbeitet, mit Ollama für lokale Inferenz oder Cloud-Anbietern funktioniert und etwa 300 MB Leerlauf-RAM verbraucht, wobei Daten lokal in ~/.skales-data gespeichert werden.