Pali v0.1: Infraestrutura de Memória de Código Aberto para LLMs com Benchmarks Reproduzíveis

O que é o Pali
Pali é uma infraestrutura de memória de código aberto para LLMs com foco em infraestrutura. É construído em Go como um único binário pronto para uso, com configurações para anexos plug-and-play como qdrant, neo4j, ollama e openrouter. O projeto tem licença MIT e é totalmente auto-hospedável.
Principais Recursos
- APIs de memória multi-inquilino com isolamento por inquilino
- Recuperação híbrida através de métodos léxicos, densos, de fusão, reranking e expansão multi-hop opcional
- Servidor MCP com ferramentas de memória-first e resolução consciente do inquilino
- API REST com respectivos pacotes Python e JavaScript disponíveis
- Painel para operadores inspecionarem inquilinos, memórias e estado do sistema
- Pontos de extensão plug-and-play para armazenamentos vetoriais, embedders, backends de entidades/fatos e pontuação/roteamento
Abordagem de Benchmark
O criador aborda problemas comuns em benchmarks de pilhas de memória implementando uma abordagem reproduzível:
- Cada execução armazena os arquivos de configuração exatos usados (perfil + renderizado)
- Hardware totalmente divulgado (CPU, GPU, RAM, versões dos modelos)
- Apenas comparações pareadas — mesmo fixture/avaliação/top_k em todos os perfis
- Faixas de velocidade e faixas de qualidade de recuperação são mantidas separadas
Números de Desempenho
Benchmarks de testes em um Ryzen 9 7950X + RTX 5070:
- sqlite + léxico: 208 operações de armazenamento/s, Top1=0.32, Recall@5=0.54
- qdrant + ollama (all-minilm): 98 operações de armazenamento/s, Top1=0.34, Recall@5=0.52
- parser+graph (faixa de estresse de memória estruturada): 2.4 operações de armazenamento/s — lento devido ao custo de extração estruturada, mas atinge ~30 média no LoCoMo com picos temporários em torno de ~40
Esclarecimento Importante
Pali não é memória de LLM no sentido SaaS. Ele retorna resultados brutos de recuperação que você otimiza para seu próprio fluxo de trabalho — sem pontuação de caixa preta, sem decisões de provedor bloqueadas. Você pode trocar backends vetoriais, embedders e pontuadores através de configuração sem alterar o contrato do seu aplicativo.
Status do Projeto
A versão 0.1 foi recentemente lançada com um conjunto adequado de benchmarks adicionado. O criador está procurando por contribuidores.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Doc Harness: Uma Habilidade de Código do Claude para Manter o Estado do Projeto Entre Sessões
Doc Harness é uma habilidade do Claude Code que cria um sistema de documentação leve com cinco arquivos estruturados para ajudar agentes de IA a manter o contexto do projeto entre sessões. Ele aborda problemas como redefinições de contexto, regras esquecidas e a necessidade de reexplicar projetos para novos agentes.

Governador: Um Plugin do Claude Code para Reduzir o Desperdício de Tokens através de Compressão de Saída, Redução de Contexto e Filtragem de Ferramentas
Governor é um plugin do Claude Code que reduz o desperdício de tokens/contexto através de saída profissional compacta, compressão de arquivos de memória, filtragem de saída de ferramentas e proteções contra desvios. Benchmarks mostram 55,5% de economia de tokens de saída em comparação com o controle.

Habilidade Local de Redação de PII para OpenClaw Utiliza o Modelo GLiNER
Uma nova habilidade do OpenClaw intercepta respostas de saída e as processa através do modelo local nvidia/gliner-PII para detectar e redigir informações sensíveis como chaves de API e PII, substituindo-as por rótulos como [API_KEY] e adicionando avisos de remoção.

Conselho: Uma Estrutura de Diálogo Organizado para Claude
Conselho — Um Cadinho é uma estrutura de diálogo estruturada que funciona dentro de uma única janela de contexto do Claude, usando enquadramento de persona para produzir quatro modos distintos de engajamento: interrogatório rigoroso, ação generativa, experiência vivida e intuição não formada.