Memoria Automática para Agentes LLM: 94% Precisión Open Source

Un desarrollador ha publicado como código abierto un sistema de memoria automática para agentes basados en LLM que extrae, clasifica y persiste automáticamente hechos entre sesiones sin requerir comandos explícitos de "guarda esto". Todo el proyecto—incluyendo el código del complemento, el diseño de la prueba de referencia y el marco de pruebas—fue construido utilizando Claude Code como herramienta principal de desarrollo.

Cómo funciona el sistema de memoria

El sistema opera con dos capas:

Capa 1 (por turno): Un LLM ligero resume cada turno en tiempo real y escribe en un archivo de preparación
Capa 2 (límite de sesión): Clasificación asíncrona en cuatro archivos de habilidades: identidad, conocimiento, lecciones y preferencias

La recuperación funciona haciendo que el agente cargue archivos de habilidades relevantes basándose en coincidencias de palabras clave en las descripciones. El enfoque utiliza archivos markdown estructurados que el agente lee como "habilidades" en lugar de bases de datos vectoriales o pipelines RAG.

Desarrollo con Claude Code

Claude Code ayudó en múltiples aspectos del proyecto:

Diseño de arquitectura: Ayudó a evaluar LongMemEval como candidato para la prueba de referencia, identificó el desajuste de paradigma (recuperación de contexto largo vs. memoria progresiva) y propuso una prueba de referencia adaptada de 6 tipos de preguntas
Creación de la prueba de referencia: Diseñó la suite completa de pruebas de 20 sesiones/48 hechos incluyendo tabla de hechos plantados, cadenas de actualización (A→B→C), pares de interferencia, preguntas de abstención y colocación de disparadores de dos saltos
Marco de pruebas: Construyó todo el marco de autopruebas incluyendo ejecutor serial, sondeo multitud, gestión de ciclo de vida, evaluador de reglas y pipeline de juez LLM
Depuración en el ciclo: Diagnosticó problemas en vivo durante las ejecuciones de prueba, como una ventana emergente de actualización que bloqueaba los reinicios del Agente, lo cual se solucionó bloqueando el archivo de estado del actualizador como solo lectura

Resultados de la prueba de referencia

La prueba de referencia de 20 sesiones se inspiró en LongMemEval y probó 48 hechos plantados en 6 tipos de preguntas:

Recuerdo profundo: Hechos de las sesiones 1-2 probados 15+ sesiones después - 89%
Actualización de conocimiento: Cadena de corrección de 3 niveles (A→B→C) - 100%
Razonamiento entre sesiones: Combinar hechos de 3+ sesiones - 100%
Resistencia a interferencias: Nombres similares que no deberían confundirse - 100%
Razonamiento temporal: Preguntas de ordenamiento "¿Cuál vino primero?" - 80%
Abstención: "No lo sé" para hechos nunca mencionados - 86%

En general: 49/52 puntos de control aprobados (94.2%). El único fallo grave ocurrió cuando el agente infirió "has hecho marketing en redes sociales" a partir de un hecho vagamente relacionado ("trabajo de promoción") cuando la respuesta correcta era "nunca discutido"—un clásico problema de sobreinferencia de LLM.

Disponibilidad y preguntas

El proyecto es de código abierto con el código y la prueba de referencia disponibles en GitHub. El desarrollador busca comentarios sobre el enfoque de archivos de habilidades (markdown estructurado vs. búsqueda vectorial), mejores formas de probar la abstención (identificada como la dimensión más difícil), e información sobre otros que estén probando la memoria entre sesiones en agentes (no solo contexto largo).

📖 Leer la fuente completa: r/ClaudeAI

Sistema de Memoria Automática de Código Abierto para Agentes LLM Logra un 94% de Precisión en Recuperación

Cómo funciona el sistema de memoria

Desarrollo con Claude Code

Resultados de la prueba de referencia

Disponibilidad y preguntas

👀 Ver también

La actualización de V6rge AI Suite agrega soporte para GPU NVIDIA y un agente de codificación en versión beta.

Sistema Operativo Hollow Agent: Trabajadores de IA local llaman a Claude como arquitecto senior cuando están atascados

NEXUS: Una Capa de Coordinación de Agentes de Código Abierto para OpenClaw

AgentOS Hueco: Ejecuta agentes tipo Claude localmente en RTX 5070 usando Qwen 3.5 9B