Pali v0.1: Infraestrutura de Memória de Código Aberto para LLMs com Benchmarks Reproduzíveis

✍️ OpenClawRadar📅 Publicado: March 14, 2026🔗 Source
Pali v0.1: Infraestrutura de Memória de Código Aberto para LLMs com Benchmarks Reproduzíveis
Ad

O que é o Pali

Pali é uma infraestrutura de memória de código aberto para LLMs com foco em infraestrutura. É construído em Go como um único binário pronto para uso, com configurações para anexos plug-and-play como qdrant, neo4j, ollama e openrouter. O projeto tem licença MIT e é totalmente auto-hospedável.

Principais Recursos

  • APIs de memória multi-inquilino com isolamento por inquilino
  • Recuperação híbrida através de métodos léxicos, densos, de fusão, reranking e expansão multi-hop opcional
  • Servidor MCP com ferramentas de memória-first e resolução consciente do inquilino
  • API REST com respectivos pacotes Python e JavaScript disponíveis
  • Painel para operadores inspecionarem inquilinos, memórias e estado do sistema
  • Pontos de extensão plug-and-play para armazenamentos vetoriais, embedders, backends de entidades/fatos e pontuação/roteamento

Abordagem de Benchmark

O criador aborda problemas comuns em benchmarks de pilhas de memória implementando uma abordagem reproduzível:

  • Cada execução armazena os arquivos de configuração exatos usados (perfil + renderizado)
  • Hardware totalmente divulgado (CPU, GPU, RAM, versões dos modelos)
  • Apenas comparações pareadas — mesmo fixture/avaliação/top_k em todos os perfis
  • Faixas de velocidade e faixas de qualidade de recuperação são mantidas separadas
Ad

Números de Desempenho

Benchmarks de testes em um Ryzen 9 7950X + RTX 5070:

  • sqlite + léxico: 208 operações de armazenamento/s, Top1=0.32, Recall@5=0.54
  • qdrant + ollama (all-minilm): 98 operações de armazenamento/s, Top1=0.34, Recall@5=0.52
  • parser+graph (faixa de estresse de memória estruturada): 2.4 operações de armazenamento/s — lento devido ao custo de extração estruturada, mas atinge ~30 média no LoCoMo com picos temporários em torno de ~40

Esclarecimento Importante

Pali não é memória de LLM no sentido SaaS. Ele retorna resultados brutos de recuperação que você otimiza para seu próprio fluxo de trabalho — sem pontuação de caixa preta, sem decisões de provedor bloqueadas. Você pode trocar backends vetoriais, embedders e pontuadores através de configuração sem alterar o contrato do seu aplicativo.

Status do Projeto

A versão 0.1 foi recentemente lançada com um conjunto adequado de benchmarks adicionado. O criador está procurando por contribuidores.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Doc Harness: Uma Habilidade de Código do Claude para Manter o Estado do Projeto Entre Sessões
Tools

Doc Harness: Uma Habilidade de Código do Claude para Manter o Estado do Projeto Entre Sessões

Doc Harness é uma habilidade do Claude Code que cria um sistema de documentação leve com cinco arquivos estruturados para ajudar agentes de IA a manter o contexto do projeto entre sessões. Ele aborda problemas como redefinições de contexto, regras esquecidas e a necessidade de reexplicar projetos para novos agentes.

OpenClawRadar
Governador: Um Plugin do Claude Code para Reduzir o Desperdício de Tokens através de Compressão de Saída, Redução de Contexto e Filtragem de Ferramentas
Tools

Governador: Um Plugin do Claude Code para Reduzir o Desperdício de Tokens através de Compressão de Saída, Redução de Contexto e Filtragem de Ferramentas

Governor é um plugin do Claude Code que reduz o desperdício de tokens/contexto através de saída profissional compacta, compressão de arquivos de memória, filtragem de saída de ferramentas e proteções contra desvios. Benchmarks mostram 55,5% de economia de tokens de saída em comparação com o controle.

OpenClawRadar
Habilidade Local de Redação de PII para OpenClaw Utiliza o Modelo GLiNER
Tools

Habilidade Local de Redação de PII para OpenClaw Utiliza o Modelo GLiNER

Uma nova habilidade do OpenClaw intercepta respostas de saída e as processa através do modelo local nvidia/gliner-PII para detectar e redigir informações sensíveis como chaves de API e PII, substituindo-as por rótulos como [API_KEY] e adicionando avisos de remoção.

OpenClawRadar
Conselho: Uma Estrutura de Diálogo Organizado para Claude
Tools

Conselho: Uma Estrutura de Diálogo Organizado para Claude

Conselho — Um Cadinho é uma estrutura de diálogo estruturada que funciona dentro de uma única janela de contexto do Claude, usando enquadramento de persona para produzir quatro modos distintos de engajamento: interrogatório rigoroso, ação generativa, experiência vivida e intuição não formada.

OpenClawRadar