Agente de Codificación Pi con Qwen 35B Q2: Uso del Sistema de Archivos como Memoria

Un usuario de Reddit compartió su enfoque para la codificación agentiva con LLMs locales, basado en el agente de codificación Pi con Qwen 35B (cuantificación Q2_K_XL mediante LM Studio). La idea central: tratar al LLM como un procesador lógico, no como una base de datos de contexto. La implementación impone restricciones estrictas en el límite de la API: el modelo no puede evitarlas.

Restricciones clave impuestas por el sistema

Límite de escritura/edición: Rechaza cualquier salida de más de 100 líneas. El modelo debe escribir primero un esqueleto y luego completar una sección a la vez. Si intenta volcar un archivo completo, la llamada se bloquea con instrucciones para dividir el trabajo.
Límite de bloque de pensamiento: Si el razonamiento del modelo supera los 2000 caracteres, recibe una corrección para escribir conclusiones en disco y continuar.
Monitor de contexto: Al 65% de uso del contexto, se le dice al modelo que escriba su estado en archivos. Al 80%, todo se detiene: el modelo escribe su 'cerebro' en el disco mientras aún está coherente.
Salida persistente: Si el modelo da una respuesta larga sin escribir un archivo, se le instruye para guardar los hallazgos en un archivo de paso. Nada se queda solo en el contexto.

Estructura del cerebro externo

El sistema utiliza los directorios .think/ y .plan/ como memoria externa del modelo. Cada paso, decisión y hallazgo se escribe en un archivo. Cuando el contexto se comprime, el modelo lee sus propias notas. El propósito de la sesión se guarda por separado en _purpose.md y se reinyecta después de la compresión del contexto, preservando el objetivo original.

Destilación de conocimiento

Un comando /distill recorre una base de código, construye un gráfico de importaciones, ordena los archivos topológicamente y hace que el modelo los resuma uno por turno en una base de conocimiento. El manifiesto se divide en páginas de 50 archivos para no consumir todo el contexto. Los usuarios pueden colocar archivos como svelte5-gotchas.md o astro-gotchas.md en una carpeta de conocimiento; una llamada LLM aislada selecciona cuáles son relevantes para la tarea actual, y solo el contenido se inyecta en la conversación principal.

Resultado real

El usuario le pidió al modelo que construyera un juego de vuelo en Three.js. El primer intento trató de escribir 652 líneas en una sola llamada: la restricción lo rechazó. El modelo replaneó, escribió un esqueleto y luego completó las características una edición a la vez. El resultado final fue un juego funcional con modelo de avión 3D, obstáculos, HUD, minimapa y pantallas de inicio y fin del juego, todo con cuantificación Q2.

La configuración completa funciona con cuantificación Q2_K_XL como mínimo; el usuario señala que Q4 o Q8 deberían dar mejores resultados. El código está disponible en GitHub: github.com/Kodrack/Pi-forge.

📖 Leer la fuente completa: r/LocalLLaMA

Agente de Codificación Pi con Qwen 35B Q2: Uso del Sistema de Archivos como Memoria Externa y Establecimiento de Guardas de Contexto

Restricciones clave impuestas por el sistema

Estructura del cerebro externo

Destilación de conocimiento

Resultado real

👀 Ver también

Usuario de Reddit Prueba la Función de Autoaprendizaje del Agente de IA Hermes, Encuentra Fallos Críticos

Corbell: CLI de Código Abierto para Análisis de Arquitectura y Documentos de Diseño entre Repositorios

Marco de trabajo de código abierto para memoria persistente de agentes de IA con almacenamiento local y recuperación basada en grafos.

Framework de agentes múltiples de código abierto extraído de la filtración del código de Claude