Zwei Monate mit GitHub Spec-Kit und Claude Code: Was funktioniert, was nicht

Nach zwei Monaten Nutzung von GitHubs Spec-Kit für Spec-Driven Development (SDD) mit Claude Code als primärem Agenten berichtet ein Entwickler auf r/LocalLLaMA, was funktioniert und was nicht. Das Toolkit, verfügbar unter github.com/github/spec-kit, erzwingt einen Fünf-Phasen-Workflow: Constitution, Specify, Plan, Tasks, Implement. Die Kernidee: Die Spezifikation, nicht der Prompt, ist die Quelle der Wahrheit.
Was wirklich gut ist
- Agenten-unabhängig: Dieselbe Spezifikation funktioniert mit Claude Code, Cursor, Codex, Gemini CLI, Copilot. Der Autor generierte Code mit Claude Code und übergab die Spezifikation dann nahtlos an Cursor zum Test-Refactoring.
- Harte Checkpoints zwischen Phasen: Die Plan-Phase zeigt die vollständige vorgeschlagene Architektur, bevor Code geschrieben wird, und fängt schlechte Entscheidungen zu Kosten einer 5-Minuten-Korrektur statt 5 Stunden.
- Constitution-Datei als Qualitätskontrolle: Sie legen unveränderliche Regeln vorab fest – Testabdeckungs-Mindestwerte, Abhängigkeits-Whitelists, Performance-Budgets, Typsicherheit. Der Agent scheitert an seiner eigenen Validierung, wenn er versucht, diese zu verletzen.
- Verbesserte Determiniertheit: Das erneute Ausführen der Implementierungsphase liefert konsistentere Ergebnisse als rohes Prompting, da der Agent nicht 30 implizite Entscheidungen selbst treffen muss.
Was nervt
- Drift ist real: Manuelle Code-Änderungen ohne Aktualisierung der Spezifikation führen schnell zu Desynchronisation. spec-kit hat Werkzeuge, aber sie sind früh.
- Aufwand für kleine Änderungen: Bugfixes <50 LOC oder triviale Funktionen wirken zeremoniell. Die Regel des Autors: Nur volles SDD für neue Module oder Funktionen, die 200+ LOC betreffen.
- Legacy-Migration schmerzhaft: Nachträgliches Einführen von SDD in eine Codebasis mit 30k LOC dauert Monate.
- Qualität hängt vom Agenten ab: Claude Code (Sonnet/Opus 4.6+) handhabt es gut; kleinere Modelle generieren Pläne, die kompilieren, aber denen architektonisches Denken fehlt.
Praktische Einrichtung
- Installation:
uv tool install --from git+https://github.com/github/spec-kit.git specify-cli. Nur das offizielle Repository ist sicher – PyPI hat Typosquatter. - Primärer Agent: Claude Code, mit Kreuzvalidierung auf Cursor und Gemini CLI.
- Lokale Persistenz: SQLite (einfach zu spezifizieren/validieren, keine Cloud-Abhängigkeit).
- Wiederverwendbare Constitution-Vorlage: strenge Typisierung, pytest-Abdeckung >80%, explizite Abhängigkeits-Whitelist, keine Cloud-Dienste außer erforderlich.
Offene Fragen
- Können lokale Modelle (Qwen, DeepSeek-Coder, GLM, Llama) Plan und Implement kompetent bewältigen? Der Autor fand, dass kleine Modelle das Format einhalten, aber das architektonische Denken versagt.
- Funktioniert Multi-Agent-SDD? Spezifikation durch ein Modell, Implementierung durch ein anderes, Prüfung durch ein drittes – theoretisch besser, aber in der Praxis nicht messbar besser als Einzel-Agent.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

GLM 5 auf Mac M3: Leistungsbeobachtungen für agentenbasiertes Programmieren
Ein Nutzer berichtet, dass er GLM 5 über MLX 4-Bit-Quantisierung auf einem Mac M3 mit 512 GB RAM ausführt und es für agentenbasiertes Programmieren mit einem Kontext unter 50.000 Token als nutzbar empfindet, jedoch erhebliche Geschwindigkeitseinbußen über dieser Schwelle feststellt.

Orc: Multi-Agent Coding Orchestration Tool erweitert um Planungs- und Benachrichtigungsfunktionen
Orc ist ein Open-Source-Tool, das KI-Codierungsagenten über Projekte hinweg mit einer lokalen TUI-Oberfläche orchestriert. Das neueste Release fügt Planung als erstklassige Phase hinzu, Benachrichtigungssysteme für menschliches Eingreifen und natürliche Sprach-Lebenszyklus-Hooks.

Nexus: Open-Source AI-zu-AI-Protokoll mit Discovery, Vertrauen und Zahlungen
Nexus ist ein selbst gehostetes Protokoll, das KI-Agenten ermöglicht, sich gegenseitig zu entdecken, Bedingungen auszuhandeln, Antworten zu verifizieren und Mikrozahlungen ohne menschliches Eingreifen abzuwickeln. Es umfasst fünf Ebenen: Entdeckung, Vertrauen, Protokoll, Routing und Föderation, mit 66 Tests und MIT-Lizenz.

Multi-LLM Papier-Trading-Bot mit Claude Opus als leitendem Ingenieur und Gemini als Stratege: Architekturaufschlüsselung
Ein Solo-Entwickler teilt einen 4.900-Zeilen Paper-Trading-Bot auf Alpaca, bei dem Claude Opus 4 (Engineer) ein Vetorecht gegenüber Gemini Pro (Strategist) hat, samt eines Protokolls mit über 270 Einträgen, dem sogenannten Strategist Codex.