Тестирование δ-Mem на Apple Silicon: реализация MLX и бенчмарки

Пользователь Reddit реализовал исследовательскую статью δ-mem (arXiv 2605.12357) для Apple Silicon с использованием mlx и интеграции OpenClaw. Статья улучшает направление внимания модели без контекста или LoRA, сообщая о 20% улучшении ответов в их тестах. Реализация использовала Qwen3-4B-Instruct через mlx и пользовательские адаптеры.
Результаты бенчмарков (нормализованные тесты mlx, Qwen3-4B-Instruct на MacMini 64GB):
- Синтетические в стиле статьи: Plain 0.5129, δ-mem 0.5129 (1.00x)
- LoCoMo-10 mini: Plain 0.0500, δ-mem 0.1833 (3.67x)
- Воспроизведение OpenClaw: Plain 0.5701, δ-mem 0.6667 (1.17x)
Затраты по задержке (по сравнению с plain):
- Синтетические: 1.013x
- LoCoMo-10 mini: 1.33x запрос / 1.50x всего
- Воспроизведение OpenClaw: 1.30x
Ключевые ссылки:
- Репозиторий GitHub с адаптером: delta-mem-mlx-sidecar-w-openclaw
- Адаптер MLX на Hugging Face: delta-mem-qwen3-4b-instruct-mlx-adapter
Выводы:
- Синтетические тесты были плоскими (1.00x), но LoCoMo-mini показал сильные относительные улучшения (3.67x).
- Воспроизведение в стиле OpenClaw показало практически значимое улучшение (6/8 → 7/8 тестов пройдено, 1.17x).
- Пользователь отмечает, что Apple Silicon не может эффективно запускать CUDA, поэтому результаты ниже, чем в бенчмарках статьи. Бенчмарки статьи (Qwen3-4B-Instruct) показали в среднем 1.10x против замороженной основы, MemoryAgentBench 1.31x, LoCoMo 1.20x.
- Пользователь ищет помощь (или финансирование ~$6k) для обучения адаптера для более крупных моделей, таких как Qwen3.6:27B.
Для кого это: Разработчики, запускающие локальных LLM-агентов на Apple Silicon, которые хотят экспериментировать с модуляцией весов δ-mem для улучшения производительности памяти/контекста.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Tokven MCP создает полные системы дизайн-токенов из одного шестнадцатеричного цвета.
Tokven MCP — это инструмент Model Context Protocol, который создаёт полную систему дизайн-токенов из одного hex-кода цвета бренда, включая поверхности, границы, иерархию текста, тени, светлый/тёмный режимы с автоматической проверкой контрастности по стандарту WCAG.

ProofShot CLI предоставляет AI-кодирующим агентам возможности верификации в браузере.
ProofShot — это инструмент с открытым исходным кодом для командной строки, который позволяет ИИ-агентам для программирования проверять UI-функции, записывая сессии браузера, делая скриншоты и собирая ошибки консоли. Он работает с любым агентом, который может выполнять команды оболочки, и генерирует автономные HTML-отчёты для проверки человеком.

Панель управления сессиями Claude Code: инструмент с открытым исходным кодом для мониторинга нескольких сессий
Открытая панель управления, которая одновременно отслеживает несколько сессий Claude Code, показывая использование токенов, затраты, статус сессии, использование контекстного окна и активные субагенты. Установка требует трех команд: git clone, cd, и npm install && npm start.

Исследование Mistral Voxtral Realtime 4B на чистом C для преобразования речи в текст
Voxtral.c предлагает чистую C-реализацию модели распознавания речи Voxtral Realtime 4B от Mistral AI, устраняя зависимости, кроме стандартной библиотеки C.