Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

Claude Code kann Aufgaben orchestrieren, indem es an ein lokales LLM auf Ihrem Rechner delegiert, ähnlich wie es Claude-Subagenten nutzt. Dieser Ansatz hält Dateiinhalte aus Claudes Kontext heraus – nur die Zusammenfassung und Erkenntnisse des lokalen Modells werden zurückgegeben.
So funktioniert es
Ein kleines Python-Skript (etwa 120 Zeilen, nur Standardbibliothek) führt eine Agentenschleife aus:
- Sie übergeben Claude eine Aufgabenbeschreibung ohne Dateiinhalt
- Das Skript sendet sie an den Endpunkt
/v1/chat/completionsvon LM Studio mit den Tool-Definitionenread_fileundlist_dir - Das lokale Modell ruft diese Tools selbst auf, um die benötigten Dateien zu lesen
- Die Schleife läuft weiter, bis sie eine endgültige Antwort erzeugt
- Claude sieht nur das Ergebnis
Beispielbefehl:
python3 agent_lm.py --dir /pfad/zum/projekt "fasse solar-system.html zusammen"
Das führt zu:
- [Runde 1] →
read_file({'path': 'solar-system.html'}) - [Runde 2] → Diese HTML-Datei erstellt ein interaktives animiertes Sonnensystem...
Der Dateiinhalt geht in den Kontext des lokalen Modells (getestet mit Qwens Kontext), nicht in Claudes.
Anwendungsfälle und Einschränkungen
Basierend auf Tests mit Qwen3.5 35B 4-bit über MLX auf Apple Silicon eignet sich dieser Ansatz für:
- Code-Zusammenfassung und Erklärung
- Fehlersuche
- Boilerplate- / Erstentwurf-Generierung
- Texttransformation und -übersetzung (mit Hebräisch getestet)
- Logikaufgaben und Schlussfolgerungen (verwenden Sie das Flag
--thinkfür schwierigere Probleme)
Er eignet sich nicht für:
- Aufgaben, die Claudes vollen Kontext erfordern
- Mehrdateiverständnis, bei dem Beziehungen wichtig sind
- Aufgaben, die den aktuellen Gesprächsverlauf benötigen
- Alles, bei dem Genauigkeit kritisch ist
Betrachten Sie es als einen Haiku-ähnlichen Assistenten, nicht als Ersatz für Claude.
Setup-Anforderungen
- LM Studio läuft lokal mit aktiviertem API-Server
- Ein Python-Skript für die Agentenschleife, eines für einfache Nur-Prompt-Abfragen
- Beide in eine globale
~/.claude/CLAUDE.mdeingebunden, damit Claude Code weiß, wann Delegation angeboten werden soll - Kein MCP-Server, keine pip-Abhängigkeiten, keine Plugin-Infrastruktur erforderlich
Konfigurationstipp: Fügen Sie {%- set enable_thinking = false %} an den Anfang der Jinja-Vorlage hinzu. Für die meisten Aufgaben muss das lokale Modell nicht schlussfolgern, und das spart Zeit und Tokens, während die Geschwindigkeit ohne echte Qualitätseinbußen für solche Aufgaben steigt.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Superglue CLI: Lassen Sie KI-Agenten API-Aufrufe ohne vorgefertigte Tools ausführen
Superglue CLI bietet eine Fähigkeit, die KI-Codierungsagenten beibringt, wie man seine Befehle verwendet, Authentifizierung handhabt, Tools erstellt und Fehler debuggt. Anstatt vorgefertigte Tools für jede API-Integration zu erstellen, können Agenten API-Spezifikationen zur Laufzeit lesen und mehrstufige Aufrufe planen.

Workaround für die ChatGPT-Projektmigrationslücke: Exportskripte und Prompts
Ein Entwickler hat Python-Skripte und Claude-Prompts erstellt, um Konversationen von ChatGPT zu Claude zu migrieren, wenn der Datenexport von ChatGPT keine Projektmitgliedschaftsinformationen enthält. Die Lösung extrahiert Konversationen anhand von Titeln, die aus der Oberfläche erfasst wurden.

Der MemAware-Benchmark zeigt, dass RAG-basierte Agentenspeicher bei der impliziten Kontextabfrage versagen.
Der MemAware-Benchmark testet, ob KI-Agenten relevante frühere Kontexte abrufen können, wenn Nutzer nicht explizit danach fragen. Die Ergebnisse zeigen, dass aktuelle Gedächtnissysteme bei schwierigen impliziten Abfragen nur eine Genauigkeit von 2,8 % erreichen, verglichen mit 0,8 % ohne Gedächtnis.

Open-Source-Buch Genesis: 20 Claude-Code-Fähigkeiten für autonomes Bücherschreiben
Book Genesis ist ein Open-Source-System aus 20 spezialisierten Claude Code-Fähigkeiten, das aus einer Buchidee ein vollständiges, veröffentlichungsfertiges Manuskript durch eine 14-Phasen-autonome Pipeline erstellt. Es beinhaltet eine 'Chaos Engine', um KI-Vorhersagemuster zu durchbrechen, und hat eine 68.000 Wörter umfassende Memoire erzeugt, die 9,0/10 auf dem Genesis Score erreichte.