Pruebas de δ-Mem en Apple Silicon: Implementación MLX y Benchmarks

Un usuario de Reddit implementó el artículo de investigación δ-mem (arXiv 2605.12357) para Apple Silicon usando mlx e integración con OpenClaw. El artículo mejora la dirección de la atención del modelo sin contexto ni LoRA, reportando un 20% mejores respuestas en sus pruebas. La implementación usó Qwen3-4B-Instruct via mlx y adaptadores personalizados.
Resultados de benchmarks (pruebas mlx normalizadas, Qwen3-4B-Instruct en MacMini 64GB):
- Estilo artículo sintético: Plain 0.5129, δ-mem 0.5129 (1.00x)
- LoCoMo-10 mini: Plain 0.0500, δ-mem 0.1833 (3.67x)
- OpenClaw replay: Plain 0.5701, δ-mem 0.6667 (1.17x)
Costos de latencia (vs plain):
- Sintético: 1.013x
- LoCoMo-10 mini: 1.33x consulta / 1.50x total
- OpenClaw replay: 1.30x
Enlaces clave:
- Repositorio de GitHub con el adaptador: delta-mem-mlx-sidecar-w-openclaw
- Adaptador MLX en Hugging Face: delta-mem-qwen3-4b-instruct-mlx-adapter
Conclusiones:
- Las pruebas sintéticas fueron planas (1.00x), pero LoCoMo-mini mostró fuertes ganancias relativas (3.67x).
- El replay estilo OpenClaw mostró una mejora prácticamente significativa (6/8 → 7/8 pruebas superadas, 1.17x).
- El usuario señala que Apple Silicon no puede ejecutar CUDA eficientemente, por lo que los resultados son inferiores a los benchmarks del artículo. Los benchmarks del artículo (Qwen3-4B-Instruct) mostraron un promedio de 1.10x vs backbone congelado, MemoryAgentBench 1.31x, LoCoMo 1.20x.
- El usuario busca ayuda (o financiamiento ~$6k) para entrenar un adaptador para modelos más grandes como Qwen3.6:27B.
Para quién es: Desarrolladores que ejecutan agentes LLM locales en Apple Silicon y quieren experimentar con la modulación de pesos δ-mem para mejorar el rendimiento de memoria/contexto.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Yavio: SDK de Análisis de Producto de Código Abierto para Aplicaciones MCP
Yavio es un SDK de análisis de productos de código abierto para MCP y aplicaciones MCP que captura automáticamente llamadas a herramientas, errores y lecturas de recursos con una sola llamada de función. El proyecto con licencia MIT proporciona un panel de control con desgloses por herramienta, embudos, retención y seguimiento de errores.

Bifrost LLM Gateway: 11 Microsegundos de Sobrecarga, Binario Único en Go
Bifrost es un proxy LLM de código abierto escrito en Go que enruta solicitudes a OpenAI, Anthropic, Azure y Bedrock con una sobrecarga de 11 microsegundos por solicitud, manejando 5,000 RPS en un VPS de $20/mes.

TigrimOS v1.1.0 y Tiger CoWork v0.5.0 lanzados con enjambres de agentes remotos y gobernanza configurable.
TigrimOS v1.1.0 y Tiger CoWork v0.5.0, lanzados hoy, añaden comunicación entre enjambres de instancias remotas y cinco protocolos de gobernanza configurables. Ambos son autohospedados, gratuitos y de código abierto.

La herramienta Squeez comprime la salida de bash en un 90%+ para ampliar la ventana de contexto de código de Claude
Squeez es un gancho que comprime automáticamente la salida cruda de bash como ps aux, docker logs y git log antes de que llegue a Claude Code. Reduce el uso de tokens en un 92.8% en promedio en 19 comandos comunes, ayudando a que las sesiones duren más.