soul.py adiciona memória persistente a LLMs locais com uma abordagem simples baseada em arquivos

soul.py é uma biblioteca Python que fornece memória persistente para sessões locais de LLM armazenando o histórico de conversas em arquivos markdown legíveis por humanos, eliminando a necessidade de bancos de dados ou servidores em execução.
Como funciona
A biblioteca cria dois arquivos markdown: SOUL.md para informações de identidade e MEMORY.md para registros de conversas. Cada vez que você chama agent.ask(), o sistema lê ambos os arquivos no prompt do sistema, processa a consulta e, em seguida, anexa a troca ao MEMORY.md. Isso permite que a memória sobreviva entre processos e sessões.
Uso básico
Instalação e configuração:
pip install soul-agent
soul initExemplo de implementação com Ollama:
from soul import Agent
agent = Agent(
provider="openai-compatible",
base_url="http://localhost:11434/v1",
model="llama3.2",
api_key="ollama"
)
agent.ask("Meu nome é Prahlad, estou trabalhando em um laboratório de pesquisa de IA.")
Mais tarde, em uma nova sessão:
agent.ask("O que você sabe sobre mim?")
Retorna: "Você é Prahlad, trabalhando em um laboratório de pesquisa de IA."
Principais recursos
- Funciona com modelos Ollama, OpenAI e Anthropic
- Não requer banco de dados ou servidor
- Arquivos markdown legíveis por humanos
- Versionáveis com Git e editáveis manualmente
- A memória persiste entre processos e sessões
- Criado especificamente para adicionar memória persistente a modelos locais
A ferramenta foi criada para resolver o problema de LLMs locais esquecerem informações entre sessões, fornecendo uma alternativa leve a soluções baseadas em banco de dados.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Holaboss AI Runtime Migra para TypeScript, Implementa Portas MCP Persistentes
O runtime do agente local Holaboss AI foi refatorado para usar exclusivamente TypeScript, eliminando dependências do Python e reduzindo o tamanho do pacote. Agora ele persiste as portas do servidor MCP no SQLite com restrições UNIQUE(port) para evitar colisões entre reinicializações.

free-claude-code adiciona suporte GLM-5 via NVIDIA NIM e se expande para OpenRouter e Discord
O free-claude-code agora oferece suporte ao GLM-5 através do nível gratuito do NVIDIA NIM (40 requisições/min) e adiciona integração com OpenRouter, suporte a bot do Discord e compatibilidade com provedor local LMStudio. A ferramenta converte as requisições da API Anthropic do Claude Code para funcionar com backends de modelos alternativos.

Duas Habilidades de Código do Claude para Gerenciar a Configuração CLAUDE.md
Um desenvolvedor criou duas habilidades Claude Code para lidar com a configuração do CLAUDE.md: /cc-init cria configurações enxutas para novos projetos, e /cc-optimize analisa projetos existentes em busca de bloat e problemas. Ambas visam reduzir a sobrecarga de contexto e melhorar o seguimento de instruções.

A Google Research apresenta o TurboQuant para compressão de modelos de IA
O Google Research apresentou o TurboQuant, um algoritmo de compressão que reduz o tamanho dos modelos de IA sem perda de precisão. Ele aborda a sobrecarga de memória na quantização vetorial e melhora o desempenho do cache chave-valor.