Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

✍️ OpenClawRadar📅 Veröffentlicht: 2. März 2026🔗 Source
Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs
Ad

Claude Code kann Aufgaben orchestrieren, indem es an ein lokales LLM auf Ihrem Rechner delegiert, ähnlich wie es Claude-Subagenten nutzt. Dieser Ansatz hält Dateiinhalte aus Claudes Kontext heraus – nur die Zusammenfassung und Erkenntnisse des lokalen Modells werden zurückgegeben.

So funktioniert es

Ein kleines Python-Skript (etwa 120 Zeilen, nur Standardbibliothek) führt eine Agentenschleife aus:

  • Sie übergeben Claude eine Aufgabenbeschreibung ohne Dateiinhalt
  • Das Skript sendet sie an den Endpunkt /v1/chat/completions von LM Studio mit den Tool-Definitionen read_file und list_dir
  • Das lokale Modell ruft diese Tools selbst auf, um die benötigten Dateien zu lesen
  • Die Schleife läuft weiter, bis sie eine endgültige Antwort erzeugt
  • Claude sieht nur das Ergebnis

Beispielbefehl:

python3 agent_lm.py --dir /pfad/zum/projekt "fasse solar-system.html zusammen"

Das führt zu:

  • [Runde 1] → read_file({'path': 'solar-system.html'})
  • [Runde 2] → Diese HTML-Datei erstellt ein interaktives animiertes Sonnensystem...

Der Dateiinhalt geht in den Kontext des lokalen Modells (getestet mit Qwens Kontext), nicht in Claudes.

Ad

Anwendungsfälle und Einschränkungen

Basierend auf Tests mit Qwen3.5 35B 4-bit über MLX auf Apple Silicon eignet sich dieser Ansatz für:

  • Code-Zusammenfassung und Erklärung
  • Fehlersuche
  • Boilerplate- / Erstentwurf-Generierung
  • Texttransformation und -übersetzung (mit Hebräisch getestet)
  • Logikaufgaben und Schlussfolgerungen (verwenden Sie das Flag --think für schwierigere Probleme)

Er eignet sich nicht für:

  • Aufgaben, die Claudes vollen Kontext erfordern
  • Mehrdateiverständnis, bei dem Beziehungen wichtig sind
  • Aufgaben, die den aktuellen Gesprächsverlauf benötigen
  • Alles, bei dem Genauigkeit kritisch ist

Betrachten Sie es als einen Haiku-ähnlichen Assistenten, nicht als Ersatz für Claude.

Setup-Anforderungen

  • LM Studio läuft lokal mit aktiviertem API-Server
  • Ein Python-Skript für die Agentenschleife, eines für einfache Nur-Prompt-Abfragen
  • Beide in eine globale ~/.claude/CLAUDE.md eingebunden, damit Claude Code weiß, wann Delegation angeboten werden soll
  • Kein MCP-Server, keine pip-Abhängigkeiten, keine Plugin-Infrastruktur erforderlich

Konfigurationstipp: Fügen Sie {%- set enable_thinking = false %} an den Anfang der Jinja-Vorlage hinzu. Für die meisten Aufgaben muss das lokale Modell nicht schlussfolgern, und das spart Zeit und Tokens, während die Geschwindigkeit ohne echte Qualitätseinbußen für solche Aufgaben steigt.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Superglue CLI: Lassen Sie KI-Agenten API-Aufrufe ohne vorgefertigte Tools ausführen
Werkzeuge

Superglue CLI: Lassen Sie KI-Agenten API-Aufrufe ohne vorgefertigte Tools ausführen

Superglue CLI bietet eine Fähigkeit, die KI-Codierungsagenten beibringt, wie man seine Befehle verwendet, Authentifizierung handhabt, Tools erstellt und Fehler debuggt. Anstatt vorgefertigte Tools für jede API-Integration zu erstellen, können Agenten API-Spezifikationen zur Laufzeit lesen und mehrstufige Aufrufe planen.

OpenClawRadar
Workaround für die ChatGPT-Projektmigrationslücke: Exportskripte und Prompts
Werkzeuge

Workaround für die ChatGPT-Projektmigrationslücke: Exportskripte und Prompts

Ein Entwickler hat Python-Skripte und Claude-Prompts erstellt, um Konversationen von ChatGPT zu Claude zu migrieren, wenn der Datenexport von ChatGPT keine Projektmitgliedschaftsinformationen enthält. Die Lösung extrahiert Konversationen anhand von Titeln, die aus der Oberfläche erfasst wurden.

OpenClawRadar
Der MemAware-Benchmark zeigt, dass RAG-basierte Agentenspeicher bei der impliziten Kontextabfrage versagen.
Werkzeuge

Der MemAware-Benchmark zeigt, dass RAG-basierte Agentenspeicher bei der impliziten Kontextabfrage versagen.

Der MemAware-Benchmark testet, ob KI-Agenten relevante frühere Kontexte abrufen können, wenn Nutzer nicht explizit danach fragen. Die Ergebnisse zeigen, dass aktuelle Gedächtnissysteme bei schwierigen impliziten Abfragen nur eine Genauigkeit von 2,8 % erreichen, verglichen mit 0,8 % ohne Gedächtnis.

OpenClawRadar
Open-Source-Buch Genesis: 20 Claude-Code-Fähigkeiten für autonomes Bücherschreiben
Werkzeuge

Open-Source-Buch Genesis: 20 Claude-Code-Fähigkeiten für autonomes Bücherschreiben

Book Genesis ist ein Open-Source-System aus 20 spezialisierten Claude Code-Fähigkeiten, das aus einer Buchidee ein vollständiges, veröffentlichungsfertiges Manuskript durch eine 14-Phasen-autonome Pipeline erstellt. Es beinhaltet eine 'Chaos Engine', um KI-Vorhersagemuster zu durchbrechen, und hat eine 68.000 Wörter umfassende Memoire erzeugt, die 9,0/10 auf dem Genesis Score erreichte.

OpenClawRadar