Entwickler teilt hybride KI-Codier-Workflow: Claude für die Planung, lokale Modelle für die Ausführung

✍️ OpenClawRadar📅 Veröffentlicht: 16. April 2026🔗 Source
Entwickler teilt hybride KI-Codier-Workflow: Claude für die Planung, lokale Modelle für die Ausführung
Ad

Hybrider KI-Codierungs-Workflow senkt Cloud-Kosten

Ein Entwickler auf r/LocalLLaMA teilte einen detaillierten Workflow, der Cloud- und lokale KI-Modelle kombiniert, um Token-Kosten zu reduzieren und gleichzeitig die Codequalität beizubehalten. Der Ansatz geht auf die Erkenntnis ein, dass viele Codierungsaufgaben keine teuren Cloud-Modelle erfordern.

Die Workflow-Architektur

Das System folgt einer "In der Cloud denken, lokal ausführen"-Logik:

  • Planer (Claude 3.5 Sonnet): Erhält die Aufgabe und generiert eine präzise task_context.md-Datei mit Anweisungen, Dateipfaden und Logik. Dies kostet etwa 300–500 Tokens.
  • Coder (Lokales Qwen2.5-Coder 30B über Ollama): Nimmt die Spezifikation und den tatsächlichen Dateiinhalt, um den Code zu schreiben. Dies läuft lokal ohne Kosten.
  • Validator: Ein einfaches Bash-Skript führt tsc --noEmit oder mypy für die Typüberprüfung aus.
  • Reviewer (Lokales Qwen2.5-Coder 7B): Läuft parallel, um offensichtliche Logikfehler zu prüfen.
  • Auto-fix: Wenn der Build fehlschlägt, geht das Fehlerprotokoll für 2–3 Iterationen zurück an den lokalen Coder.
Ad

Implementierungsdetails

Die gesamte Pipeline ist in eine Reihe von Bash-Skripten eingebettet, die nur jq und curl für die Kommunikation mit der Ollama-API verwenden. Das System erkennt automatisch Sprachstandards (TypeScript, Python, C++ usw.) basierend auf der Ausgabe des Planers und benötigt keine schwergewichtigen Python/Node-Laufzeitumgebungen.

Der Entwickler merkt an, dass lokale Modelle (selbst 30B-Versionen) bei komplexer architektonischer Argumentation oft versagen, aber überraschend gut in der Ausführung sind, wenn sie klare Spezifikationen erhalten.

Ergebnisse und Einsparungen

Bei einem kürzlichen TypeScript-Projekt mit 12 geänderten Dateien:

  • Die Claude-Nutzung war auf die anfängliche Planungsphase beschränkt
  • Lokale Modelle bewältigten alles andere: Schreiben von 12 Dateien, Linting und Review
  • Gesamteinsparung: etwa 85 % Token-Reduktion im Vergleich zur vollständigen Abwicklung innerhalb der Claude Code CLI

Der Entwickler hat die Skripte in einem Repository namens ai-orchestrator auf GitHub (Benutzername: Mybono) für Interessierte an Implementierungsdetails verfügbar gemacht.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Murmur: Ein Open-Source-Cron-Daemon zur Automatisierung von Claude-Code-Sitzungen
Werkzeuge

Murmur: Ein Open-Source-Cron-Daemon zur Automatisierung von Claude-Code-Sitzungen

Murmur ist ein Cron-Daemon, der Claude-Code-Sitzungen plant und automatisiert mithilfe einer HEARTBEAT.md-Datei zur Konfiguration.

OpenClawRadar
Stockade: Ein neues Orchestrierungstool für Claude Code mit Kanalunterstützung und Sicherheitsebenen
Werkzeuge

Stockade: Ein neues Orchestrierungstool für Claude Code mit Kanalunterstützung und Sicherheitsebenen

Stockade ist ein Orchestrierungstool, das auf Anthropics Agent SDK aufbaut und kanalbasiertes Sitzungsmanagement, RBAC sowie feingranulare Berechtigungen für KI-Agenten bietet. Es behebt Einschränkungen von OpenClaw und NanoClaw, indem es mehr Kontrolle bietet und gleichzeitig durch Containerisierung und Credential-Proxys die Sicherheit gewährleistet.

OpenClawRadar
Codegraph: Vorindizierter Wissensgraph reduziert Claude/Cursor-Tool-Aufrufe um 94%
Werkzeuge

Codegraph: Vorindizierter Wissensgraph reduziert Claude/Cursor-Tool-Aufrufe um 94%

Codegraph verwendet einen vorab indizierten Wissensgraphen mit Symbolbeziehungen, Aufrufgraphen und Codestruktur, um API-Toolaufrufe um bis zu 94 % zu reduzieren und die Nutzung für Claude-, Cursor-, Codex- und OpenCode-Agenten um etwa 77 % zu beschleunigen.

OpenClawRadar
ZSE: Open-Source-LLM-Inferenz-Engine mit 3,9-Sekunden-Kaltstarts
Werkzeuge

ZSE: Open-Source-LLM-Inferenz-Engine mit 3,9-Sekunden-Kaltstarts

ZSE ist eine Open-Source-Inferenz-Engine für LLMs, die den Speicherbedarf für 32B-Modelle von 64GB auf 19,3GB VRAM reduziert und mit einem vorquantisierten .zse-Format und speichergemappten Gewichten Kaltstarts von 3,9 Sekunden für 7B-Modelle erreicht.

OpenClawRadar