Entwickler teilt hybride KI-Codier-Workflow: Claude für die Planung, lokale Modelle für die Ausführung

Hybrider KI-Codierungs-Workflow senkt Cloud-Kosten
Ein Entwickler auf r/LocalLLaMA teilte einen detaillierten Workflow, der Cloud- und lokale KI-Modelle kombiniert, um Token-Kosten zu reduzieren und gleichzeitig die Codequalität beizubehalten. Der Ansatz geht auf die Erkenntnis ein, dass viele Codierungsaufgaben keine teuren Cloud-Modelle erfordern.
Die Workflow-Architektur
Das System folgt einer "In der Cloud denken, lokal ausführen"-Logik:
- Planer (Claude 3.5 Sonnet): Erhält die Aufgabe und generiert eine präzise
task_context.md-Datei mit Anweisungen, Dateipfaden und Logik. Dies kostet etwa 300–500 Tokens. - Coder (Lokales Qwen2.5-Coder 30B über Ollama): Nimmt die Spezifikation und den tatsächlichen Dateiinhalt, um den Code zu schreiben. Dies läuft lokal ohne Kosten.
- Validator: Ein einfaches Bash-Skript führt
tsc --noEmitodermypyfür die Typüberprüfung aus. - Reviewer (Lokales Qwen2.5-Coder 7B): Läuft parallel, um offensichtliche Logikfehler zu prüfen.
- Auto-fix: Wenn der Build fehlschlägt, geht das Fehlerprotokoll für 2–3 Iterationen zurück an den lokalen Coder.
Implementierungsdetails
Die gesamte Pipeline ist in eine Reihe von Bash-Skripten eingebettet, die nur jq und curl für die Kommunikation mit der Ollama-API verwenden. Das System erkennt automatisch Sprachstandards (TypeScript, Python, C++ usw.) basierend auf der Ausgabe des Planers und benötigt keine schwergewichtigen Python/Node-Laufzeitumgebungen.
Der Entwickler merkt an, dass lokale Modelle (selbst 30B-Versionen) bei komplexer architektonischer Argumentation oft versagen, aber überraschend gut in der Ausführung sind, wenn sie klare Spezifikationen erhalten.
Ergebnisse und Einsparungen
Bei einem kürzlichen TypeScript-Projekt mit 12 geänderten Dateien:
- Die Claude-Nutzung war auf die anfängliche Planungsphase beschränkt
- Lokale Modelle bewältigten alles andere: Schreiben von 12 Dateien, Linting und Review
- Gesamteinsparung: etwa 85 % Token-Reduktion im Vergleich zur vollständigen Abwicklung innerhalb der Claude Code CLI
Der Entwickler hat die Skripte in einem Repository namens ai-orchestrator auf GitHub (Benutzername: Mybono) für Interessierte an Implementierungsdetails verfügbar gemacht.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Murmur: Ein Open-Source-Cron-Daemon zur Automatisierung von Claude-Code-Sitzungen
Murmur ist ein Cron-Daemon, der Claude-Code-Sitzungen plant und automatisiert mithilfe einer HEARTBEAT.md-Datei zur Konfiguration.

Stockade: Ein neues Orchestrierungstool für Claude Code mit Kanalunterstützung und Sicherheitsebenen
Stockade ist ein Orchestrierungstool, das auf Anthropics Agent SDK aufbaut und kanalbasiertes Sitzungsmanagement, RBAC sowie feingranulare Berechtigungen für KI-Agenten bietet. Es behebt Einschränkungen von OpenClaw und NanoClaw, indem es mehr Kontrolle bietet und gleichzeitig durch Containerisierung und Credential-Proxys die Sicherheit gewährleistet.

Codegraph: Vorindizierter Wissensgraph reduziert Claude/Cursor-Tool-Aufrufe um 94%
Codegraph verwendet einen vorab indizierten Wissensgraphen mit Symbolbeziehungen, Aufrufgraphen und Codestruktur, um API-Toolaufrufe um bis zu 94 % zu reduzieren und die Nutzung für Claude-, Cursor-, Codex- und OpenCode-Agenten um etwa 77 % zu beschleunigen.

ZSE: Open-Source-LLM-Inferenz-Engine mit 3,9-Sekunden-Kaltstarts
ZSE ist eine Open-Source-Inferenz-Engine für LLMs, die den Speicherbedarf für 32B-Modelle von 64GB auf 19,3GB VRAM reduziert und mit einem vorquantisierten .zse-Format und speichergemappten Gewichten Kaltstarts von 3,9 Sekunden für 7B-Modelle erreicht.