Sistema de Memoria Automática de Código Abierto para Agentes LLM Logra un 94% de Precisión en Recuperación

Un desarrollador ha publicado como código abierto un sistema de memoria automática para agentes basados en LLM que extrae, clasifica y persiste automáticamente hechos entre sesiones sin requerir comandos explícitos de "guarda esto". Todo el proyecto—incluyendo el código del complemento, el diseño de la prueba de referencia y el marco de pruebas—fue construido utilizando Claude Code como herramienta principal de desarrollo.
Cómo funciona el sistema de memoria
El sistema opera con dos capas:
- Capa 1 (por turno): Un LLM ligero resume cada turno en tiempo real y escribe en un archivo de preparación
- Capa 2 (límite de sesión): Clasificación asíncrona en cuatro archivos de habilidades: identidad, conocimiento, lecciones y preferencias
La recuperación funciona haciendo que el agente cargue archivos de habilidades relevantes basándose en coincidencias de palabras clave en las descripciones. El enfoque utiliza archivos markdown estructurados que el agente lee como "habilidades" en lugar de bases de datos vectoriales o pipelines RAG.
Desarrollo con Claude Code
Claude Code ayudó en múltiples aspectos del proyecto:
- Diseño de arquitectura: Ayudó a evaluar LongMemEval como candidato para la prueba de referencia, identificó el desajuste de paradigma (recuperación de contexto largo vs. memoria progresiva) y propuso una prueba de referencia adaptada de 6 tipos de preguntas
- Creación de la prueba de referencia: Diseñó la suite completa de pruebas de 20 sesiones/48 hechos incluyendo tabla de hechos plantados, cadenas de actualización (A→B→C), pares de interferencia, preguntas de abstención y colocación de disparadores de dos saltos
- Marco de pruebas: Construyó todo el marco de autopruebas incluyendo ejecutor serial, sondeo multitud, gestión de ciclo de vida, evaluador de reglas y pipeline de juez LLM
- Depuración en el ciclo: Diagnosticó problemas en vivo durante las ejecuciones de prueba, como una ventana emergente de actualización que bloqueaba los reinicios del Agente, lo cual se solucionó bloqueando el archivo de estado del actualizador como solo lectura
Resultados de la prueba de referencia
La prueba de referencia de 20 sesiones se inspiró en LongMemEval y probó 48 hechos plantados en 6 tipos de preguntas:
- Recuerdo profundo: Hechos de las sesiones 1-2 probados 15+ sesiones después - 89%
- Actualización de conocimiento: Cadena de corrección de 3 niveles (A→B→C) - 100%
- Razonamiento entre sesiones: Combinar hechos de 3+ sesiones - 100%
- Resistencia a interferencias: Nombres similares que no deberían confundirse - 100%
- Razonamiento temporal: Preguntas de ordenamiento "¿Cuál vino primero?" - 80%
- Abstención: "No lo sé" para hechos nunca mencionados - 86%
En general: 49/52 puntos de control aprobados (94.2%). El único fallo grave ocurrió cuando el agente infirió "has hecho marketing en redes sociales" a partir de un hecho vagamente relacionado ("trabajo de promoción") cuando la respuesta correcta era "nunca discutido"—un clásico problema de sobreinferencia de LLM.
Disponibilidad y preguntas
El proyecto es de código abierto con el código y la prueba de referencia disponibles en GitHub. El desarrollador busca comentarios sobre el enfoque de archivos de habilidades (markdown estructurado vs. búsqueda vectorial), mejores formas de probar la abstención (identificada como la dimensión más difícil), e información sobre otros que estén probando la memoria entre sesiones en agentes (no solo contexto largo).
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

La actualización de V6rge AI Suite agrega soporte para GPU NVIDIA y un agente de codificación en versión beta.
V6rge AI Suite ha lanzado una actualización que corrige problemas de detección de GPU, añade soporte completo para GPU NVIDIA para un mejor rendimiento e introduce un nuevo agente de programación en versión beta que genera y asiste con código directamente dentro de la aplicación.

Sistema Operativo Hollow Agent: Trabajadores de IA local llaman a Claude como arquitecto senior cuando están atascados
Hollow Agent OS utiliza modelos Qwen locales que funcionan 24/7, pero cuando encuentran errores de lógica o necesitan cambios importantes, activan una llamada a Claude a través de MCP. Claude reorganiza estructuras de archivos, revisa código y actúa como gestor de trabajadores autónomos locales.

NEXUS: Una Capa de Coordinación de Agentes de Código Abierto para OpenClaw
NEXUS es una capa de coordinación construida sobre OpenClaw que permite a los agentes de IA descubrirse entre sí, delegar tareas y manejar micropagos. Incluye un registro de agentes, descubrimiento basado en capacidades, puntuaciones de confianza, y utiliza el protocolo A2A de Google y el MCP de Anthropic.

AgentOS Hueco: Ejecuta agentes tipo Claude localmente en RTX 5070 usando Qwen 3.5 9B
Un sistema de agentes auto-modificables que ejecuta Qwen 3.5 9B en hardware local reduce los costos de la API de Claude en un 50%. Utiliza un bucle de pruebas iterativas y auto-mejora para desarrollar software sin intervención humana.