Zwei Monate mit GitHub Spec-Kit und Claude Code: Was funktioniert, was nicht

✍️ OpenClawRadar📅 Veröffentlicht: 15. Mai 2026🔗 Source
Zwei Monate mit GitHub Spec-Kit und Claude Code: Was funktioniert, was nicht
Ad

Nach zwei Monaten Nutzung von GitHubs Spec-Kit für Spec-Driven Development (SDD) mit Claude Code als primärem Agenten berichtet ein Entwickler auf r/LocalLLaMA, was funktioniert und was nicht. Das Toolkit, verfügbar unter github.com/github/spec-kit, erzwingt einen Fünf-Phasen-Workflow: Constitution, Specify, Plan, Tasks, Implement. Die Kernidee: Die Spezifikation, nicht der Prompt, ist die Quelle der Wahrheit.

Was wirklich gut ist

  • Agenten-unabhängig: Dieselbe Spezifikation funktioniert mit Claude Code, Cursor, Codex, Gemini CLI, Copilot. Der Autor generierte Code mit Claude Code und übergab die Spezifikation dann nahtlos an Cursor zum Test-Refactoring.
  • Harte Checkpoints zwischen Phasen: Die Plan-Phase zeigt die vollständige vorgeschlagene Architektur, bevor Code geschrieben wird, und fängt schlechte Entscheidungen zu Kosten einer 5-Minuten-Korrektur statt 5 Stunden.
  • Constitution-Datei als Qualitätskontrolle: Sie legen unveränderliche Regeln vorab fest – Testabdeckungs-Mindestwerte, Abhängigkeits-Whitelists, Performance-Budgets, Typsicherheit. Der Agent scheitert an seiner eigenen Validierung, wenn er versucht, diese zu verletzen.
  • Verbesserte Determiniertheit: Das erneute Ausführen der Implementierungsphase liefert konsistentere Ergebnisse als rohes Prompting, da der Agent nicht 30 implizite Entscheidungen selbst treffen muss.
Ad

Was nervt

  • Drift ist real: Manuelle Code-Änderungen ohne Aktualisierung der Spezifikation führen schnell zu Desynchronisation. spec-kit hat Werkzeuge, aber sie sind früh.
  • Aufwand für kleine Änderungen: Bugfixes <50 LOC oder triviale Funktionen wirken zeremoniell. Die Regel des Autors: Nur volles SDD für neue Module oder Funktionen, die 200+ LOC betreffen.
  • Legacy-Migration schmerzhaft: Nachträgliches Einführen von SDD in eine Codebasis mit 30k LOC dauert Monate.
  • Qualität hängt vom Agenten ab: Claude Code (Sonnet/Opus 4.6+) handhabt es gut; kleinere Modelle generieren Pläne, die kompilieren, aber denen architektonisches Denken fehlt.

Praktische Einrichtung

  • Installation: uv tool install --from git+https://github.com/github/spec-kit.git specify-cli. Nur das offizielle Repository ist sicher – PyPI hat Typosquatter.
  • Primärer Agent: Claude Code, mit Kreuzvalidierung auf Cursor und Gemini CLI.
  • Lokale Persistenz: SQLite (einfach zu spezifizieren/validieren, keine Cloud-Abhängigkeit).
  • Wiederverwendbare Constitution-Vorlage: strenge Typisierung, pytest-Abdeckung >80%, explizite Abhängigkeits-Whitelist, keine Cloud-Dienste außer erforderlich.

Offene Fragen

  • Können lokale Modelle (Qwen, DeepSeek-Coder, GLM, Llama) Plan und Implement kompetent bewältigen? Der Autor fand, dass kleine Modelle das Format einhalten, aber das architektonische Denken versagt.
  • Funktioniert Multi-Agent-SDD? Spezifikation durch ein Modell, Implementierung durch ein anderes, Prüfung durch ein drittes – theoretisch besser, aber in der Praxis nicht messbar besser als Einzel-Agent.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

GLM 5 auf Mac M3: Leistungsbeobachtungen für agentenbasiertes Programmieren
Werkzeuge

GLM 5 auf Mac M3: Leistungsbeobachtungen für agentenbasiertes Programmieren

Ein Nutzer berichtet, dass er GLM 5 über MLX 4-Bit-Quantisierung auf einem Mac M3 mit 512 GB RAM ausführt und es für agentenbasiertes Programmieren mit einem Kontext unter 50.000 Token als nutzbar empfindet, jedoch erhebliche Geschwindigkeitseinbußen über dieser Schwelle feststellt.

OpenClawRadar
Orc: Multi-Agent Coding Orchestration Tool erweitert um Planungs- und Benachrichtigungsfunktionen
Werkzeuge

Orc: Multi-Agent Coding Orchestration Tool erweitert um Planungs- und Benachrichtigungsfunktionen

Orc ist ein Open-Source-Tool, das KI-Codierungsagenten über Projekte hinweg mit einer lokalen TUI-Oberfläche orchestriert. Das neueste Release fügt Planung als erstklassige Phase hinzu, Benachrichtigungssysteme für menschliches Eingreifen und natürliche Sprach-Lebenszyklus-Hooks.

OpenClawRadar
Nexus: Open-Source AI-zu-AI-Protokoll mit Discovery, Vertrauen und Zahlungen
Werkzeuge

Nexus: Open-Source AI-zu-AI-Protokoll mit Discovery, Vertrauen und Zahlungen

Nexus ist ein selbst gehostetes Protokoll, das KI-Agenten ermöglicht, sich gegenseitig zu entdecken, Bedingungen auszuhandeln, Antworten zu verifizieren und Mikrozahlungen ohne menschliches Eingreifen abzuwickeln. Es umfasst fünf Ebenen: Entdeckung, Vertrauen, Protokoll, Routing und Föderation, mit 66 Tests und MIT-Lizenz.

OpenClawRadar
Multi-LLM Papier-Trading-Bot mit Claude Opus als leitendem Ingenieur und Gemini als Stratege: Architekturaufschlüsselung
Werkzeuge

Multi-LLM Papier-Trading-Bot mit Claude Opus als leitendem Ingenieur und Gemini als Stratege: Architekturaufschlüsselung

Ein Solo-Entwickler teilt einen 4.900-Zeilen Paper-Trading-Bot auf Alpaca, bei dem Claude Opus 4 (Engineer) ein Vetorecht gegenüber Gemini Pro (Strategist) hat, samt eines Protokolls mit über 270 Einträgen, dem sogenannten Strategist Codex.

OpenClawRadar