Dos meses con Spec-Kit de GitHub y Claude Code: Lo que funciona, lo que no

Después de dos meses usando spec-kit de GitHub para desarrollo basado en especificaciones (SDD) con Claude Code como agente principal, un desarrollador en r/LocalLLaMA informa sobre lo que funciona y lo que no. El kit, disponible en github.com/github/spec-kit, impone un flujo de trabajo de cinco fases: Constitución, Especificación, Plan, Tareas, Implementación. La idea central: la especificación, no el prompt, es la fuente de verdad.
Lo que realmente funciona
- Independiente del agente: La misma especificación funciona con Claude Code, Cursor, Codex, Gemini CLI, Copilot. El autor generó código con Claude Code, luego pasó la especificación a Cursor para refactorizar pruebas sin problemas.
- Puntos de control estrictos entre fases: La fase de Plan muestra la arquitectura propuesta completa antes de escribir cualquier código, detectando malas decisiones a un costo de arreglo de 5 minutos en lugar de 5 horas.
- Archivo de constitución como filtro de calidad: Defines reglas inviolables de antemano: cobertura mínima de pruebas, listas blancas de dependencias, presupuestos de rendimiento, rigurosidad de tipos. El agente falla su propia validación si intenta violarlas.
- Determinismo mejorado: Re-ejecutar la fase de implementación produce resultados más consistentes que el prompting puro, ya que el agente no está llenando 30 decisiones implícitas.
Lo que molesta
- La desviación es real: Ediciones manuales de código sin actualizar la especificación causan desincronización rápida. spec-kit tiene herramientas pero son tempranas.
- Sobrecarga para cambios pequeños: Correcciones de errores <50 LOC o características triviales se sienten ceremoniales. La regla del autor: solo SDD completo para nuevos módulos o características que toquen 200+ LOC.
- Migración heredada dolorosa: Adaptar SDD a una base de código de 30k LOC lleva meses.
- La calidad depende del agente: Claude Code (Sonnet/Opus 4.6+) lo maneja bien; los modelos más pequeños generan planes que compilan pero carecen de razonamiento arquitectónico.
Configuración práctica
- Instalación:
uv tool install --from git+https://github.com/github/spec-kit.git specify-cli. Solo el repositorio oficial es seguro — PyPI tiene typosquatters. - Agente principal: Claude Code, con validación cruzada en Cursor y Gemini CLI.
- Persistencia local: SQLite (fácil de especificar/validar, sin dependencia en la nube).
- Plantilla de constitución reutilizable: tipado estricto, cobertura de pytest >80%, lista blanca de dependencias explícita, sin servicios en la nube a menos que sea requerido.
Preguntas abiertas
- ¿Pueden los modelos locales (Qwen, DeepSeek-Coder, GLM, Llama) manejar Plan e Implementación de manera competente? El autor encontró que los modelos pequeños siguen el formato pero el razonamiento arquitectónico falla.
- ¿Funciona el SDD multi-agente? Especificación por un modelo, implementación por otro, auditoría por un tercero — teóricamente mejor, pero no mediblemente mejor que un solo agente en la práctica.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

FixAI Dev: Un Juego de Derechos del Consumidor Usando Claude Haiku con Contratos JSON Estrictos
Un desarrollador creó un juego de navegador donde Claude Haiku actúa como una IA corporativa que niega solicitudes de consumidores; los jugadores argumentan utilizando leyes reales de protección al consumidor en 37 casos de la UE, EE. UU., Reino Unido y Australia. La arquitectura usa Haiku solo para el lenguaje, con lógica del juego en el servidor y contratos JSON estrictos entre componentes.

Alternativas a los Agentes de Codificación de IA tras la Eliminación del Plan de Claude
Un usuario de Reddit probó varias alternativas de agentes de codificación con IA después de que Claude descontinuara su plan de codificación, incluyendo Kimi ($20/mes), Minimax ($10/mes), Z.AI GLM ($10/mes), Stepfun ($6-10/mes), Mistral ($15/mes) y Arcee Trinity (basado en API).

Alfred Beta se Lanza: Alternativa Simplificada de OpenClaw para Usuarios No Técnicos
Alfred es una nueva herramienta en fase beta que proporciona aproximadamente el 70% de la funcionalidad de OpenClaw con una complejidad significativamente reducida, ofreciendo configuraciones predeterminadas simples para conexiones de aplicaciones, memoria, modos de uso e infraestructura, al tiempo que permite personalizaciones.

Freestyle Lanza Sandboxes para Agentes de Codificación de IA con Bifurcación en Vivo
Freestyle proporciona entornos de pruebas en la nube para agentes de programación con IA que se inician en ~500 ms y cuentan con bifurcación en vivo con pausa <400 ms, permitiendo clones completos de máquinas virtuales incluyendo el estado de la memoria. Ejecutan Debian completo con virtualización de hardware en infraestructura de metal puro.