Hybrider KI-Coding-Workflow: Claude + Lokale Modelle

Hybrider KI-Codierungs-Workflow senkt Cloud-Kosten

Ein Entwickler auf r/LocalLLaMA teilte einen detaillierten Workflow, der Cloud- und lokale KI-Modelle kombiniert, um Token-Kosten zu reduzieren und gleichzeitig die Codequalität beizubehalten. Der Ansatz geht auf die Erkenntnis ein, dass viele Codierungsaufgaben keine teuren Cloud-Modelle erfordern.

Die Workflow-Architektur

Das System folgt einer "In der Cloud denken, lokal ausführen"-Logik:

Planer (Claude 3.5 Sonnet): Erhält die Aufgabe und generiert eine präzise task_context.md-Datei mit Anweisungen, Dateipfaden und Logik. Dies kostet etwa 300–500 Tokens.
Coder (Lokales Qwen2.5-Coder 30B über Ollama): Nimmt die Spezifikation und den tatsächlichen Dateiinhalt, um den Code zu schreiben. Dies läuft lokal ohne Kosten.
Validator: Ein einfaches Bash-Skript führt tsc --noEmit oder mypy für die Typüberprüfung aus.
Reviewer (Lokales Qwen2.5-Coder 7B): Läuft parallel, um offensichtliche Logikfehler zu prüfen.
Auto-fix: Wenn der Build fehlschlägt, geht das Fehlerprotokoll für 2–3 Iterationen zurück an den lokalen Coder.

Implementierungsdetails

Die gesamte Pipeline ist in eine Reihe von Bash-Skripten eingebettet, die nur jq und curl für die Kommunikation mit der Ollama-API verwenden. Das System erkennt automatisch Sprachstandards (TypeScript, Python, C++ usw.) basierend auf der Ausgabe des Planers und benötigt keine schwergewichtigen Python/Node-Laufzeitumgebungen.

Der Entwickler merkt an, dass lokale Modelle (selbst 30B-Versionen) bei komplexer architektonischer Argumentation oft versagen, aber überraschend gut in der Ausführung sind, wenn sie klare Spezifikationen erhalten.

Ergebnisse und Einsparungen

Bei einem kürzlichen TypeScript-Projekt mit 12 geänderten Dateien:

Die Claude-Nutzung war auf die anfängliche Planungsphase beschränkt
Lokale Modelle bewältigten alles andere: Schreiben von 12 Dateien, Linting und Review
Gesamteinsparung: etwa 85 % Token-Reduktion im Vergleich zur vollständigen Abwicklung innerhalb der Claude Code CLI

Der Entwickler hat die Skripte in einem Repository namens ai-orchestrator auf GitHub (Benutzername: Mybono) für Interessierte an Implementierungsdetails verfügbar gemacht.

📖 Read the full source: r/LocalLLaMA

Entwickler teilt hybride KI-Codier-Workflow: Claude für die Planung, lokale Modelle für die Ausführung

Hybrider KI-Codierungs-Workflow senkt Cloud-Kosten

Die Workflow-Architektur

Implementierungsdetails

Ergebnisse und Einsparungen

👀 Siehe auch

Claude Code Limiter: Selbst gehosteter Ratenbegrenzer für geteilte Claude Code-Abonnements

OpenClaw Codex-GPT5.4 Aufgabenvalidierungsschleifenproblem

Zot: Ein Leichtgewichtiger Terminal-Coding-Agent unterstützt jetzt Claude Opus 4.8

ReRouted: macOS-Menüleisten-App für automatisches Fallback über Claude, Codex, Grok und mehr