Lokales LLM als Claude-Code-Subagent: Kontext sparen

Claude Code kann Aufgaben orchestrieren, indem es an ein lokales LLM auf Ihrem Rechner delegiert, ähnlich wie es Claude-Subagenten nutzt. Dieser Ansatz hält Dateiinhalte aus Claudes Kontext heraus – nur die Zusammenfassung und Erkenntnisse des lokalen Modells werden zurückgegeben.

So funktioniert es

Ein kleines Python-Skript (etwa 120 Zeilen, nur Standardbibliothek) führt eine Agentenschleife aus:

Sie übergeben Claude eine Aufgabenbeschreibung ohne Dateiinhalt
Das Skript sendet sie an den Endpunkt /v1/chat/completions von LM Studio mit den Tool-Definitionen read_file und list_dir
Das lokale Modell ruft diese Tools selbst auf, um die benötigten Dateien zu lesen
Die Schleife läuft weiter, bis sie eine endgültige Antwort erzeugt
Claude sieht nur das Ergebnis

Beispielbefehl:

python3 agent_lm.py --dir /pfad/zum/projekt "fasse solar-system.html zusammen"

Das führt zu:

[Runde 1] → read_file({'path': 'solar-system.html'})
[Runde 2] → Diese HTML-Datei erstellt ein interaktives animiertes Sonnensystem...

Der Dateiinhalt geht in den Kontext des lokalen Modells (getestet mit Qwens Kontext), nicht in Claudes.

Anwendungsfälle und Einschränkungen

Basierend auf Tests mit Qwen3.5 35B 4-bit über MLX auf Apple Silicon eignet sich dieser Ansatz für:

Code-Zusammenfassung und Erklärung
Fehlersuche
Boilerplate- / Erstentwurf-Generierung
Texttransformation und -übersetzung (mit Hebräisch getestet)
Logikaufgaben und Schlussfolgerungen (verwenden Sie das Flag --think für schwierigere Probleme)

Er eignet sich nicht für:

Aufgaben, die Claudes vollen Kontext erfordern
Mehrdateiverständnis, bei dem Beziehungen wichtig sind
Aufgaben, die den aktuellen Gesprächsverlauf benötigen
Alles, bei dem Genauigkeit kritisch ist

Betrachten Sie es als einen Haiku-ähnlichen Assistenten, nicht als Ersatz für Claude.

Setup-Anforderungen

LM Studio läuft lokal mit aktiviertem API-Server
Ein Python-Skript für die Agentenschleife, eines für einfache Nur-Prompt-Abfragen
Beide in eine globale ~/.claude/CLAUDE.md eingebunden, damit Claude Code weiß, wann Delegation angeboten werden soll
Kein MCP-Server, keine pip-Abhängigkeiten, keine Plugin-Infrastruktur erforderlich

Konfigurationstipp: Fügen Sie {%- set enable_thinking = false %} an den Anfang der Jinja-Vorlage hinzu. Für die meisten Aufgaben muss das lokale Modell nicht schlussfolgern, und das spart Zeit und Tokens, während die Geschwindigkeit ohne echte Qualitätseinbußen für solche Aufgaben steigt.

📖 Read the full source: r/ClaudeAI

Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

So funktioniert es

Anwendungsfälle und Einschränkungen

Setup-Anforderungen

👀 Siehe auch

GGUF-Modell-Zusammenführungs-Skript und Workflow für Qwen3.5-35B-Varianten

TextGen (text-generation-webui) wird native Desktop-App mit portablen Builds

Claw Code Agent: Python-Neuimplementierung der Claude-Code-Architektur für lokale Modelle

AgentMarket: Eine Proof-of-Concept-Plattform für KI-Agenten-Ökonomien