Два месяца с Spec-Kit от GitHub и Claude Code: что работает, что нет

После двух месяцев использования GitHub spec-kit для Spec-Driven Development (SDD) с Claude Code в качестве основного агента разработчик на r/LocalLLaMA рассказывает, что работает, а что нет. Инструментарий, доступный по адресу github.com/github/spec-kit, реализует пятифазовый рабочий процесс: Constitution, Specify, Plan, Tasks, Implement. Основная идея: спецификация, а не промпт, является источником истины.
Что действительно хорошо
- Агент-независимость: Одна и та же спецификация работает с Claude Code, Cursor, Codex, Gemini CLI, Copilot. Автор сгенерировал код с Claude Code, затем передал спецификацию в Cursor для рефакторинга тестов без каких-либо проблем.
- Жесткие контрольные точки между фазами: Фаза Plan показывает полную предполагаемую архитектуру до того, как написан хотя бы один фрагмент кода, что позволяет выявлять плохие решения ценой 5-минутного исправления вместо 5 часов.
- Файл Constitution как шлюз качества: Вы заранее определяете нерушимые правила — минимальное покрытие тестами, разрешенный список зависимостей, бюджеты производительности, строгость типизации. Агент не проходит собственную валидацию, если пытается их нарушить.
- Улучшенная детерминированность: Повторный запуск фазы Implement дает более согласованный вывод, чем сырые промпты, поскольку агенту не нужно самостоятельно принимать 30 неявных решений.
Что раздражает
- Рассинхрон реален: Ручное редактирование кода без обновления спецификации приводит к быстрой десинхронизации. В spec-kit есть инструментарий, но он сыроват.
- Накладные расходы для небольших изменений: Исправления ошибок <50 строк или тривиальные фичи кажутся излишне церемониальными. Правило автора: полный SDD только для новых модулей или функций, затрагивающих 200+ строк кода.
- Миграция легаси болезненна: Встраивание SDD в существующую кодовую базу из 30 тыс. строк может занять месяцы.
- Качество зависит от агента: Claude Code (Sonnet/Opus 4.6+) справляется хорошо; маленькие модели генерируют планы, которые компилируются, но лишены архитектурного мышления.
Практическая настройка
- Установка:
uv tool install --from git+https://github.com/github/spec-kit.git specify-cli. Только официальный репозиторий безопасен — на PyPI есть тайпсквоттеры. - Основной агент: Claude Code с перекрестной валидацией на Cursor и Gemini CLI.
- Локальное хранение: SQLite (легко специфицировать и валидировать, нет зависимости от облака).
- Шаблон Constitution: строгая типизация, покрытие pytest >80%, явный разрешенный список зависимостей, никаких облачных сервисов без необходимости.
Открытые вопросы
- Могут ли локальные модели (Qwen, DeepSeek-Coder, GLM, Llama) компетентно выполнять Plan и Implement? Автор обнаружил, что маленькие модели следуют формату, но архитектурное мышление не работает.
- Работает ли мультиагентный SDD? Спецификация одной моделью, реализация другой, аудит третьей — теоретически лучше, но на практике не измеримо лучше, чем с одним агентом.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

bareguard: Легковесная система безопасности для AI-агентов — теперь в npm
bareguard v1.0 — это слой безопасности для AI-агентов, состоящий из ~1000 строк кода с одной зависимостью, который блокирует деструктивные действия (rm -rf, DROP TABLE) и обеспечивает контроль бюджета с возможностью эскалации человеку. Входит в состав bare suite, доступен на npm.

Счётчик Claude: Приложение для Android отслеживает лимиты использования Claude с уведомлениями в реальном времени.
Разработчик создал Claude Counter — бесплатное приложение для Android, которое опрашивает API Claude для отображения текущих лимитов сессии и недельного использования. Приложение показывает индикаторы выполнения, предоставляет расширенные уведомления с оставшимся процентом и предупреждает о сбросе лимитов.

Плагин OpenClaw Memos решает проблемы передачи памяти в AI-агентах для программирования.
Пользователь Reddit рассказывает, как утечка кода Claude выявила проблемы с передачей памяти в AI-агентах для программирования, где раздутые транскрипты вызывают сложности при смене моделей. Они внедрили плагин memos в OpenClaw со стратегией выборочного восстановления, чтобы сжимать недавнюю работу и отбрасывать устаревшие вызовы инструментов.

Технические проблемы Ollama и споры в сообществе
Ollama, популярный локальный инструмент LLM, сталкивается с критикой за приуменьшение своей зависимости от llama.cpp, проблемы с соблюдением лицензий и технические проблемы с собственным бэкендом, включая регрессии производительности и повторно появившиеся ошибки.