Pali v0.1 : Infrastructure de mémoire open source pour LLM avec des benchmarks reproductibles

Qu'est-ce que Pali
Pali est une infrastructure de mémoire open source pour les LLM qui est axée sur l'infrastructure. Il est construit en Go sous forme d'un binaire unique prêt à l'emploi avec des configurations pour des extensions plug-and-play comme qdrant, neo4j, ollama et openrouter. Le projet est sous licence MIT et entièrement auto-hébergeable.
Fonctionnalités principales
- API de mémoire multi-locataires avec isolation par locataire
- Récupération hybride à travers lexical, dense, fusion, reranking et expansion multi-sauts optionnelle
- Serveur MCP avec outils axés sur la mémoire et résolution tenant-aware
- API REST avec packages Python et JavaScript respectifs en direct
- Tableau de bord pour les opérateurs inspectant les locataires, les mémoires et l'état du système
- Points d'extension plug-and-play pour les magasins vectoriels, les embedders, les backends d'entités-faits et le scoring/routage
Approche de benchmark
Le créateur aborde les problèmes courants des benchmarks de piles de mémoire en mettant en œuvre une approche reproductible :
- Chaque exécution stocke les fichiers de configuration exacts utilisés (profil + rendu)
- Le matériel est entièrement divulgué (CPU, GPU, RAM, versions des modèles)
- Comparaisons appariées uniquement — même fixture/évaluation/top_k pour tous les profils
- Les voies de vitesse et les voies de qualité de récupération sont séparées
Chiffres de performance
Benchmarks des tests sur un Ryzen 9 7950X + RTX 5070 :
- sqlite + lexical : 208 opérations de stockage/s, Top1=0.32, Recall@5=0.54
- qdrant + ollama (all-minilm) : 98 opérations de stockage/s, Top1=0.34, Recall@5=0.52
- parser+graph (voie de stress mémoire structurée) : 2.4 opérations de stockage/s — lent en raison du coût d'extraction structurée, mais atteint ~30 en moyenne sur LoCoMo avec des pics temporels autour de ~40
Clarification importante
Pali n'est pas une mémoire LLM au sens SaaS. Il renvoie des résultats de récupération bruts que vous optimisez pour votre propre flux de travail — pas de scoring boîte noire, pas de décisions de fournisseur verrouillées. Vous pouvez échanger les backends vectoriels, les embedders et les scoreurs via la configuration sans changer le contrat de votre application.
État du projet
La version 0.1 a été récemment publiée avec une suite de benchmarks appropriée ajoutée. Le créateur recherche des contributeurs.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Mesure des dépenses de tokens hors tâche dans Claude Code : la métrique 'Intention non déclarée'
Un développeur a créé une métrique pour quantifier le calcul dépensé sur des chemins d'exécution non intentionnels dans des sessions Claude Code, constatant que 22,8 % des tokens étaient consacrés à un travail hors sujet.

Validation du modèle d'aptitude à auto-évolution : résultats d'une expérience en 5 tours
Un développeur a testé le modèle de conception de compétence auto-évolutive pour Claude Code avec une expérience en 5 tours sur une base de données MySQL comprenant 29 tables et 590 Mo de données de gestion intelligente de bâtiments. Les principaux résultats incluent un taux de rejet à cinq portes de 63,6 %, une convergence incrémentielle et une précision de 100 % sans aucune connaissance incorrecte survivante.

Liste Sélectionnée de 260+ Outils d'Agents IA avec les Points Forts de l'Écosystème Claude
Un dépôt GitHub contient une liste organisée de plus de 260 outils d'agents IA, incluant des entrées spécifiques liées à Claude comme Claude Code (80,9 % SWE-bench), Claude Computer Use et Claude in Chrome, ainsi que des outils qui fonctionnent bien avec Claude tels que Cline et Cursor.

Bibliothèque de journalisation Article 12 open-source pour la conformité à l'IA Act de l'UE
Une bibliothèque TypeScript gratuite et open-source pour les applications Node.js utilisant le SDK AI Vercel qui implémente les exigences de journalisation de l'Article 12 avec des journaux JSONL en ajout uniquement, une chaînage de hachage SHA-256 pour la détection de falsification et une application de la rétention de 180 jours.