Pali v0.1: Infraestructura de Memoria de Código Abierto para LLMs con Puntos de Referencia Reproducibles

Qué es Pali
Pali es una infraestructura de memoria de código abierto para LLMs que prioriza la infraestructura. Está construido en Go como un binario único listo para usar con configuraciones para adjuntos plug and play como qdrant, neo4j, ollama y openrouter. El proyecto tiene licencia MIT y es completamente autoalojable.
Características Clave
- APIs de memoria multiinquilino con aislamiento por inquilino
- Recuperación híbrida a través de métodos léxicos, densos, de fusión, reranking y expansión multi-salto opcional
- Servidor MCP con herramientas centradas en memoria y resolución consciente del inquilino
- API REST con respectivos paquetes de Python y JavaScript en vivo
- Panel de control para operadores que inspeccionan inquilinos, memorias y estado del sistema
- Puntos de extensión plug-and-play para almacenes vectoriales, incrustadores, backends de entidades-hechos y puntuación/enrutamiento
Enfoque de Pruebas Comparativas
El creador aborda problemas comunes con las pruebas comparativas de pilas de memoria implementando un enfoque reproducible:
- Cada ejecución almacena los archivos de configuración exactos utilizados (perfil + renderizado)
- El hardware se divulga completamente (CPU, GPU, RAM, versiones del modelo)
- Solo comparaciones emparejadas — mismo fixture/evaluación/top_k en todos los perfiles
- Los carriles de velocidad y los carriles de calidad de recuperación se mantienen separados
Números de Rendimiento
Pruebas comparativas de pruebas en un Ryzen 9 7950X + RTX 5070:
- sqlite + léxico: 208 operaciones de almacenamiento/s, Top1=0.32, Recall@5=0.54
- qdrant + ollama (all-minilm): 98 operaciones de almacenamiento/s, Top1=0.34, Recall@5=0.52
- parser+graph (carril de estrés de memoria estructurada): 2.4 operaciones de almacenamiento/s — lento debido al costo de extracción estructurada, pero alcanza ~30 promedio en LoCoMo con picos temporales alrededor de ~40
Aclaración Importante
Pali no es memoria LLM en el sentido SaaS. Devuelve resultados de recuperación crudos que optimizas para tu propio flujo de trabajo — sin puntuación de caja negra, sin decisiones de proveedor bloqueadas. Puedes intercambiar backends vectoriales, incrustadores y puntuadores a través de la configuración sin cambiar tu contrato de aplicación.
Estado del Proyecto
La versión 0.1 se publicó recientemente con un conjunto de pruebas comparativas adecuado añadido. El creador está buscando colaboradores.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Habilidad de Claude Code Convierte Diseños de Stitch a Next.js con Cero Desviación de Píxeles
Una habilidad de Claude Code convierte diseños de Google Stitch AI en componentes Next.js con puntos de verificación obligatorios para prevenir la desviación de píxeles, preservando valores exactos y manejando recursos.

OpenHelm: Un Programador de Tareas en Segundo Plano Local para Claude Code con Lógica de Reintento Autocorrectora
OpenHelm es una aplicación basada en Tauri que ejecuta tareas de Claude Code en segundo plano según una programación, almacena todo el estado localmente en SQLite e incluye un bucle de reintento autocorrector que ajusta las instrucciones tras los fallos.

Ajuste fino de Qwen 14B para autocompletado en Discord.
Un desarrollador ajustó el modelo Qwen 14B utilizando su conjunto de datos de mensajes de Discord para crear una herramienta de autocompletado.

La Herramienta PRECC Reduce los Costos de la API de Código Claude con Compresión Previa a la Llamada de Herramientas
Un desarrollador creó PRECC, una herramienta de código abierto que intercepta las llamadas de herramientas de Claude Code y comprime los payloads usando RTK (Redundancy-aware Token Kompression), reduciendo los tokens de entrada en un 40-66% sin impacto perceptible en la latencia.