Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

✍️ OpenClawRadar📅 Veröffentlicht: 2. März 2026🔗 Source
Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs
Ad

Ein Entwickler auf r/LocalLLaMA zeigt, wie man Claude Code nutzen kann, um Aufgaben an ein lokales LLM zu delegieren, das über LM Studio läuft, und dabei den Kontextverbrauch von Claude reduziert, indem der Dateiinhalt lokal bleibt.

So funktioniert es

Das System verwendet ein kleines Python-Skript (etwa 120 Zeilen, nur Standardbibliothek), das eine Agentenschleife ausführt:

  • Man übergibt Claude eine Aufgabenbeschreibung ohne Dateiinhalt
  • Das Skript sendet diese an den /v1/chat/completions-Endpunkt von LM Studio mit Tool-Definitionen für read_file und list_dir
  • Das lokale Modell ruft diese Tools selbst auf, um die benötigten Dateien zu lesen
  • Die Schleife läuft weiter, bis eine endgültige Antwort erzeugt wird
  • Claude sieht nur das Ergebnis, nicht den Dateiinhalt

Beispielnutzung

python3 agent_lm.py --dir /pfad/zum/projekt "fasse solar-system.html zusammen"
# [Runde 1] → read_file({'path': 'solar-system.html'})
# [Runde 2] → Diese HTML-Datei erstellt ein interaktives animiertes Sonnensystem...

Der Dateiinhalt geht in den Kontext des lokalen Modells (getestet mit Qwen3.5 35B 4-bit via MLX auf Apple Silicon), nicht in den von Claude.

Wofür es geeignet ist

  • Code-Zusammenfassung und Erklärung
  • Fehlersuche
  • Boilerplate- / Erstentwurf-Generierung
  • Texttransformation und -übersetzung (mit Hebräisch getestet)
  • Logikaufgaben und Schlussfolgerungen (für schwierigere Probleme das Flag --think verwenden)
Ad

Wofür es nicht geeignet ist

  • Aufgaben, die den vollen Kontext von Claude erfordern, wie das Verständnis mehrerer Dateien, bei denen Beziehungen wichtig sind
  • Aufgaben, die den aktuellen Gesprächsverlauf benötigen
  • Alles, wo Genauigkeit kritisch ist

Der Autor beschreibt es als "einen Haiku-ähnlichen Assistenten, keinen Ersatz".

Einrichtung

  • LM Studio lokal laufen lassen mit aktiviertem API-Server
  • Ein Python-Skript für die Agentenschleife, eines für einfache nur-Prompt-Abfragen
  • Beide in eine globale ~/.claude/CLAUDE.md eingebunden, damit Claude Code weiß, wann Delegation angeboten werden soll
  • Kein MCP-Server, keine pip-Abhängigkeiten, keine Plugin-Infrastruktur nötig
  • Empfehlung: {%- set enable_thinking = false %} oben in die Jinja-Vorlage einfügen - für die meisten Aufgaben spart dies Zeit und Tokens ohne Qualitätseinbußen

Der Autor merkt an, dass Claude beim Schreiben des Beitrags geholfen hat, jedoch unter Aufsicht und mit Korrekturen, und ist bereit, die Skripte bei Interesse zu teilen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Qhatu: Plattform verwandelt GitHub-Repos in nutzungsbasierte Micro-SaaS mit Claude
Werkzeuge

Qhatu: Plattform verwandelt GitHub-Repos in nutzungsbasierte Micro-SaaS mit Claude

Qhatu ist eine Plattform, die ein GitHub-Repository übernimmt und es als nutzungsabhängiges Micro-SaaS mit generiertem Frontend und integrierter Zahlungsabwicklung bereitstellt. Das System nutzt Anthropic-APIs, um Code zu analysieren, Dockerfiles zu generieren und Shop-Oberflächen zu erstellen.

OpenClawRadar
Inoffizieller Ultrahuman Ring MCP Server für die Integration von KI-Agenten
Werkzeuge

Inoffizieller Ultrahuman Ring MCP Server für die Integration von KI-Agenten

Ein von der Community entwickelter MCP-Server kapselt die Ultrahuman Partner API und ermöglicht es KI-Coding-Agents, direkt über strukturierte Datenabfragen auf Ring- und CGM-Metriken wie Schlaf, HRV, Glukose und Recovery-Scores zuzugreifen.

OpenClawRadar
Lokale LLM-Leistungsbenchmarks auf dem Mac Mini mit OpenClaw und LM Studio
Werkzeuge

Lokale LLM-Leistungsbenchmarks auf dem Mac Mini mit OpenClaw und LM Studio

Ein Reddit-Nutzer veröffentlichte Leistungsdaten für das lokale Ausführen des Unsloth gpt-oss-20b-Q4_K_S.gguf-Modells auf einem Mac Mini mit 32 GB RAM und erreichte 34 Token/Sekunde mit einer Zeit bis zum ersten Token von 0,7 Sekunden unter Verwendung von OpenClaw 2026.3.8 und LM Studio 0.4.6+1.

OpenClawRadar
Skales: Desktop-KI-Agent mit Ollama-Unterstützung, 300 MB Leerlauf-RAM
Werkzeuge

Skales: Desktop-KI-Agent mit Ollama-Unterstützung, 300 MB Leerlauf-RAM

Skales ist eine native Electron-Desktop-App, die einen autonomen KI-Agenten bereitstellt, mit .exe/.dmg-Installern arbeitet, mit Ollama für lokale Inferenz oder Cloud-Anbietern funktioniert und etwa 300 MB Leerlauf-RAM verbraucht, wobei Daten lokal in ~/.skales-data gespeichert werden.

OpenClawRadar