GitHub Spec-Kit & Claude Code: 5 Phasen Workflow Test

Nach zwei Monaten Nutzung von GitHubs Spec-Kit für Spec-Driven Development (SDD) mit Claude Code als primärem Agenten berichtet ein Entwickler auf r/LocalLLaMA, was funktioniert und was nicht. Das Toolkit, verfügbar unter github.com/github/spec-kit, erzwingt einen Fünf-Phasen-Workflow: Constitution, Specify, Plan, Tasks, Implement. Die Kernidee: Die Spezifikation, nicht der Prompt, ist die Quelle der Wahrheit.

Was wirklich gut ist

Agenten-unabhängig: Dieselbe Spezifikation funktioniert mit Claude Code, Cursor, Codex, Gemini CLI, Copilot. Der Autor generierte Code mit Claude Code und übergab die Spezifikation dann nahtlos an Cursor zum Test-Refactoring.
Harte Checkpoints zwischen Phasen: Die Plan-Phase zeigt die vollständige vorgeschlagene Architektur, bevor Code geschrieben wird, und fängt schlechte Entscheidungen zu Kosten einer 5-Minuten-Korrektur statt 5 Stunden.
Constitution-Datei als Qualitätskontrolle: Sie legen unveränderliche Regeln vorab fest – Testabdeckungs-Mindestwerte, Abhängigkeits-Whitelists, Performance-Budgets, Typsicherheit. Der Agent scheitert an seiner eigenen Validierung, wenn er versucht, diese zu verletzen.
Verbesserte Determiniertheit: Das erneute Ausführen der Implementierungsphase liefert konsistentere Ergebnisse als rohes Prompting, da der Agent nicht 30 implizite Entscheidungen selbst treffen muss.

Was nervt

Drift ist real: Manuelle Code-Änderungen ohne Aktualisierung der Spezifikation führen schnell zu Desynchronisation. spec-kit hat Werkzeuge, aber sie sind früh.
Aufwand für kleine Änderungen: Bugfixes <50 LOC oder triviale Funktionen wirken zeremoniell. Die Regel des Autors: Nur volles SDD für neue Module oder Funktionen, die 200+ LOC betreffen.
Legacy-Migration schmerzhaft: Nachträgliches Einführen von SDD in eine Codebasis mit 30k LOC dauert Monate.
Qualität hängt vom Agenten ab: Claude Code (Sonnet/Opus 4.6+) handhabt es gut; kleinere Modelle generieren Pläne, die kompilieren, aber denen architektonisches Denken fehlt.

Praktische Einrichtung

Installation: uv tool install --from git+https://github.com/github/spec-kit.git specify-cli. Nur das offizielle Repository ist sicher – PyPI hat Typosquatter.
Primärer Agent: Claude Code, mit Kreuzvalidierung auf Cursor und Gemini CLI.
Lokale Persistenz: SQLite (einfach zu spezifizieren/validieren, keine Cloud-Abhängigkeit).
Wiederverwendbare Constitution-Vorlage: strenge Typisierung, pytest-Abdeckung >80%, explizite Abhängigkeits-Whitelist, keine Cloud-Dienste außer erforderlich.

Offene Fragen

Können lokale Modelle (Qwen, DeepSeek-Coder, GLM, Llama) Plan und Implement kompetent bewältigen? Der Autor fand, dass kleine Modelle das Format einhalten, aber das architektonische Denken versagt.
Funktioniert Multi-Agent-SDD? Spezifikation durch ein Modell, Implementierung durch ein anderes, Prüfung durch ein drittes – theoretisch besser, aber in der Praxis nicht messbar besser als Einzel-Agent.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Zwei Monate mit GitHub Spec-Kit und Claude Code: Was funktioniert, was nicht

Was wirklich gut ist

Was nervt

Praktische Einrichtung

Offene Fragen

👀 Siehe auch

SprintiQ: Open-Source Sprint-Planung für Claude Code

Docent: Ein KI-Assistent zur Analyse von wissenschaftlichen Artikeln, entwickelt mit Claude Code

Schwarm-Leckdetektor: Kostenloses Tool zum Scannen nach offengelegten API-Schlüsseln in OpenClaw-Konfigurationen

W2A – ein offenes Protokoll für Agentensensoren: Lokale Agenten mit Echtzeitwahrnehmung ausstatten