Una Capa de Gobernanza de 7 Archivos para Prevenir la Deriva de Sesión en LLM

Un desarrollador en r/LocalLLaMA compartió una solución para evitar que asistentes de programación con LLM como Claude deshagan silenciosamente decisiones arquitectónicas entre sesiones. En lugar de tratar las sesiones de LLM como conversaciones, ahora las tratan como procesos sin estado que necesitan un protocolo.
El Problema Central
Cada sesión de LLM comienza con memoria cero. Vuelves a explicar, reinterpreta y se desvía con confianza. El desarrollador señaló: "Ni siquiera te darás cuenta hasta que estés profundamente dentro del proyecto, tal vez tres archivos adentro o cuatro archivos o quién sabe incluso en la última parte del proyecto".
La Capa de Gobernanza de 7 Archivos
La solución no es un mejor prompt sino una capa de gobernanza que cualquier modelo puede leer y operar inmediatamente dentro de ella. El sistema utiliza siete archivos, cada uno con una preocupación específica sin superposición:
active_context.md- Controlador de sesión, define lo que está en alcance en este momentocontracts.md- Ley de comportamiento, esquemas de datos, valores de enumeración, comportamiento requeridoagent_core.md- Disciplina de ejecución, cómo operar, validar, informaragent_project.md- Intención del proyecto, por qué existe este sistema, resultados esperadosdecisions.md- Registro ADR, elecciones no obvias y por qué fueron aceptadasbuild_plan.md- Hoja de ruta del módulo, orden de implementación y entregablesstate.md- Diario vivo, qué se hizo, qué cambió, qué queda
Decisiones de Diseño Clave
El desarrollador explicó dos separaciones críticas:
Separar contracts.md de agent_core.md: "Cuando apareció un conflicto de comportamiento, el modelo no tenía forma de saber a qué capa deferir. ¿Era esta una regla de esquema o una preferencia de ejecución? Cuando están separados, la jerarquía es inequívoca, los contratos siempre ganan".
Incluir decisions.md: "Casi lo omití ('solo lo recordaré'). Tres semanas después no pude reconstruir por qué habíamos elegido Postgres sobre SQLite para un módulo específico. El registro ADR existe precisamente porque 'lo recordaré' no es un protocolo".
El Bucle Operativo
Cada sesión sigue este orden, sin excepciones:
- Leer
active_context.md→ extraer lo que está en alcance - Reafirmar contra
contracts.md→ reglas de comportamiento bloqueadas - Confirmar restricciones operativas de
agent_core.md+agent_project.md - Verificar
decisions.md→ no revertir elecciones aceptadas - Ejecutar solo lo que
active_context.mdautoriza, segúnbuild_plan.md - Validar con pruebas — no declarar hecho sin evidencia
- Actualizar
state.mdcon resultados factuales - Si se tomó una nueva decisión no trivial, registrarla en
decisions.md
Impacto en el Flujo de Trabajo
El bloqueo de alcance de active_context.md demostró ser particularmente valioso: "Antes de esto, comenzaba una sesión para corregir un error y terminaba refactorizando un módulo no relacionado porque 'estaba justo ahí'. Se sentía productivo.........y lo era".
📖 Read the full source: r/LocalLLaMA
👀 Ver también

SourceBridge: Herramienta de código abierto para análisis de bases de código utilizando LLMs locales
SourceBridge es una herramienta de código abierto que indexa repositorios Git en gráficos de símbolos y utiliza LLMs locales para generar resúmenes de bases de código, recorridos de arquitectura y materiales de aprendizaje. Es compatible con múltiples backends locales, incluidos Ollama, llama.cpp, vLLM, LM Studio y SGLang a través de APIs compatibles con OpenAI.

Slides-grab: Editor Visual para Corregir Diapositivas HTML Generadas por Claude Code
Slides-grab es una herramienta que te permite arrastrar elementos en diapositivas HTML/CSS generadas por Claude Code, luego envía el XPath y una captura de pantalla resaltada al agente de IA para una edición precisa. Aborda el problema de corregir pequeños problemas de diseño solo mediante indicaciones de texto.

Servidor MCP para Datos de Trenes Italianos: Retrasos en Tiempo Real, Salidas y Horarios en Claude
Un desarrollador construyó un servidor MCP no oficial para Trenitalia que proporciona cinco herramientas para consultar datos de trenes italianos a través de Claude, incluyendo tableros de salidas/llegadas en tiempo real, seguimiento de trenes y horarios con enriquecimiento de retrasos en vivo.

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes
Un nuevo método de cuantización llamado JANG permite ejecutar modelos grandes como MiniMax-M2.5 y Qwen 3.5 en el framework MLX de Apple con un rendimiento significativamente mejor que la cuantización estándar de MLX, logrando velocidades casi nativas mientras mantiene una precisión comparable a las cuantizaciones de mayor número de bits.