δ-MemをMLXでApple Siliconテスト：ベンチマークと実装結果

Redditユーザーがδ-mem研究論文（arXiv 2605.12357）をApple Silicon向けにmlxとOpenClaw統合を用いて実装しました。この論文は、コンテキストやLoRAなしでモデルの注意の方向性を改善し、テストで20%の回答精度向上を報告しています。実装にはQwen3-4B-Instructをmlxとカスタムアダプターで使用しました。

ベンチマーク結果（mlx正規化テスト、Qwen3-4B-Instruct on MacMini 64GB）：

合成紙スタイル：Plain 0.5129、δ-mem 0.5129（1.00倍）
LoCoMo-10 mini：Plain 0.0500、δ-mem 0.1833（3.67倍）
OpenClawリプレイ：Plain 0.5701、δ-mem 0.6667（1.17倍）

レイテンシコスト（通常比）：

合成：1.013倍
LoCoMo-10 mini：クエリ1.33倍 / 合計1.50倍
OpenClawリプレイ：1.30倍

主要リンク：

アダプター付きGitHubリポジトリ：delta-mem-mlx-sidecar-w-openclaw
Hugging Face上のMLXアダプター：delta-mem-qwen3-4b-instruct-mlx-adapter

所見：

合成プローブは横ばい（1.00倍）だったが、LoCoMo-miniでは大きな相対的改善（3.67倍）が見られた。
OpenClawスタイルのリプレイでは実用的な改善（通過プローブ数6/8→7/8、1.17倍）が見られた。
ユーザーはApple SiliconではCUDAを効率的に実行できないため、結果は論文ベンチマークより低いと指摘。論文ベンチマーク（Qwen3-4B-Instruct）では、凍結バックボーン比平均1.10倍、MemoryAgentBench 1.31倍、LoCoMo 1.20倍だった。
ユーザーはQwen3.6:27Bのような大規模モデル用アダプターを訓練するための支援（または約$6kの資金）を求めている。

対象読者： Apple Silicon上でローカルLLMエージェントを実行し、δ-mem重み変調によるメモリ/コンテキスト性能向上を試したい開発者。

📖 全文を読む： r/LocalLLaMA