Pali v0.1 : Infrastructure Mémoire Open Source pour LLM

Qu'est-ce que Pali

Pali est une infrastructure de mémoire open source pour les LLM qui est axée sur l'infrastructure. Il est construit en Go sous forme d'un binaire unique prêt à l'emploi avec des configurations pour des extensions plug-and-play comme qdrant, neo4j, ollama et openrouter. Le projet est sous licence MIT et entièrement auto-hébergeable.

Fonctionnalités principales

API de mémoire multi-locataires avec isolation par locataire
Récupération hybride à travers lexical, dense, fusion, reranking et expansion multi-sauts optionnelle
Serveur MCP avec outils axés sur la mémoire et résolution tenant-aware
API REST avec packages Python et JavaScript respectifs en direct
Tableau de bord pour les opérateurs inspectant les locataires, les mémoires et l'état du système
Points d'extension plug-and-play pour les magasins vectoriels, les embedders, les backends d'entités-faits et le scoring/routage

Approche de benchmark

Le créateur aborde les problèmes courants des benchmarks de piles de mémoire en mettant en œuvre une approche reproductible :

Chaque exécution stocke les fichiers de configuration exacts utilisés (profil + rendu)
Le matériel est entièrement divulgué (CPU, GPU, RAM, versions des modèles)
Comparaisons appariées uniquement — même fixture/évaluation/top_k pour tous les profils
Les voies de vitesse et les voies de qualité de récupération sont séparées

Chiffres de performance

Benchmarks des tests sur un Ryzen 9 7950X + RTX 5070 :

sqlite + lexical : 208 opérations de stockage/s, Top1=0.32, Recall@5=0.54
qdrant + ollama (all-minilm) : 98 opérations de stockage/s, Top1=0.34, Recall@5=0.52
parser+graph (voie de stress mémoire structurée) : 2.4 opérations de stockage/s — lent en raison du coût d'extraction structurée, mais atteint ~30 en moyenne sur LoCoMo avec des pics temporels autour de ~40

Clarification importante

Pali n'est pas une mémoire LLM au sens SaaS. Il renvoie des résultats de récupération bruts que vous optimisez pour votre propre flux de travail — pas de scoring boîte noire, pas de décisions de fournisseur verrouillées. Vous pouvez échanger les backends vectoriels, les embedders et les scoreurs via la configuration sans changer le contrat de votre application.