Testando δ-Mem no Apple Silicon: Implementação MLX e Benchmarks

Um usuário do Reddit implementou o artigo de pesquisa δ-mem (arXiv 2605.12357) para Apple Silicon usando mlx e integração OpenClaw. O artigo melhora a direção da atenção do modelo sem contexto ou LoRA, relatando respostas 20% melhores em seus testes. A implementação usou Qwen3-4B-Instruct via mlx e adaptadores personalizados.
Resultados dos Benchmarks (testes mlx normalizados, Qwen3-4B-Instruct em MacMini 64GB):
- Estilo sintético do artigo: Plain 0,5129, δ-mem 0,5129 (1,00x)
- LoCoMo-10 mini: Plain 0,0500, δ-mem 0,1833 (3,67x)
- Replay OpenClaw: Plain 0,5701, δ-mem 0,6667 (1,17x)
Custos de latência (vs plain):
- Sintético: 1,013x
- LoCoMo-10 mini: 1,33x query / 1,50x total
- Replay OpenClaw: 1,30x
Links importantes:
- Repositório GitHub com adaptador: delta-mem-mlx-sidecar-w-openclaw
- Adaptador MLX no Hugging Face: delta-mem-qwen3-4b-instruct-mlx-adapter
Conclusões:
- As sondas sintéticas ficaram planas (1,00x), mas o LoCoMo-mini mostrou fortes ganhos relativos (3,67x).
- O replay estilo OpenClaw mostrou uma melhoria praticamente significativa (6/8 → 7/8 sondas aprovadas, 1,17x).
- O usuário observa que o Apple Silicon não pode executar CUDA eficientemente, então os resultados são inferiores aos benchmarks do artigo. Os benchmarks do artigo (Qwen3-4B-Instruct) mostraram média de 1,10x vs backbone congelado, MemoryAgentBench 1,31x, LoCoMo 1,20x.
- O usuário está pedindo ajuda (ou financiamento de ~$6k) para treinar um adaptador para modelos maiores, como Qwen3.6:27B.
Para quem é: Desenvolvedores executando agentes LLM locais em Apple Silicon que desejam experimentar a modulação de peso δ-mem para melhorar o desempenho de memória/contexto.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Claudeck: Interface de Navegador para o Claude Code com Agentes, Controle de Custos e Sistema de Plugins
Claudeck é uma interface de usuário baseada em navegador que envolve o Claude Code SDK, apresentando orquestração de agentes autônomos, rastreamento de custos, isolamento de worktree do git, memória persistente e um sistema de plugins. Instale com npx claudeck@latest.

OMAR: TUI de Código Aberto para Gerenciar Centenas de Agentes de Codificação de IA Hierarquicamente
OMAR é um dashboard em terminal que permite gerenciar enxames de agentes de codificação (Claude Code, Codex, Cursor, Opencode) em organizações hierárquicas. Construído sobre tmux. Recursos incluem hierarquias de agente-gerenciando-agente, backends heterogêneos e integração com Slack.

HolyCode: Contêiner Docker para Ambientes Persistentes de Agentes de Codificação de IA
HolyCode é um contêiner Docker que fornece um ambiente de desenvolvimento persistente para agentes de IA de codificação, mantendo sessões, configurações e plugins entre reconstruções. Inclui ferramentas de navegador pré-configuradas para fluxos de trabalho de agentes e suporta Claude, OpenAI, Gemini e outros provedores através do OpenCode.

Sala de Agentes: Aplicativo de Desktop para Visualização de Equipes de Agentes de Código Claude
Agents Room é um aplicativo de desktop Electron que escaneia pastas .claude/agents/, lê frontmatter e visualiza relacionamentos entre agentes em uma tela com linhas de conexão automáticas. Permite criar/editar agentes, habilidades e comandos diretamente na interface, em vez de editar arquivos markdown.