Apple Silicon上でδ-Memをテスト:MLX実装とベンチマーク

Redditユーザーがδ-mem研究論文(arXiv 2605.12357)をApple Silicon向けにmlxとOpenClaw統合を用いて実装しました。この論文は、コンテキストやLoRAなしでモデルの注意の方向性を改善し、テストで20%の回答精度向上を報告しています。実装にはQwen3-4B-Instructをmlxとカスタムアダプターで使用しました。
ベンチマーク結果(mlx正規化テスト、Qwen3-4B-Instruct on MacMini 64GB):
- 合成紙スタイル:Plain 0.5129、δ-mem 0.5129(1.00倍)
- LoCoMo-10 mini:Plain 0.0500、δ-mem 0.1833(3.67倍)
- OpenClawリプレイ:Plain 0.5701、δ-mem 0.6667(1.17倍)
レイテンシコスト(通常比):
- 合成:1.013倍
- LoCoMo-10 mini:クエリ1.33倍 / 合計1.50倍
- OpenClawリプレイ:1.30倍
主要リンク:
- アダプター付きGitHubリポジトリ:delta-mem-mlx-sidecar-w-openclaw
- Hugging Face上のMLXアダプター:delta-mem-qwen3-4b-instruct-mlx-adapter
所見:
- 合成プローブは横ばい(1.00倍)だったが、LoCoMo-miniでは大きな相対的改善(3.67倍)が見られた。
- OpenClawスタイルのリプレイでは実用的な改善(通過プローブ数6/8→7/8、1.17倍)が見られた。
- ユーザーはApple SiliconではCUDAを効率的に実行できないため、結果は論文ベンチマークより低いと指摘。論文ベンチマーク(Qwen3-4B-Instruct)では、凍結バックボーン比平均1.10倍、MemoryAgentBench 1.31倍、LoCoMo 1.20倍だった。
- ユーザーはQwen3.6:27Bのような大規模モデル用アダプターを訓練するための支援(または約$6kの資金)を求めている。
対象読者: Apple Silicon上でローカルLLMエージェントを実行し、δ-mem重み変調によるメモリ/コンテキスト性能向上を試したい開発者。
📖 全文を読む: r/LocalLLaMA
👀 See Also

ピアMCPサーバーがAIコーディングセッションを接続し、コラボレーションを実現
Peersは、Claude CodeとCodexセッションを接続し、互いを発見させ、共有スクラッチパッドを通じて協力し、差分やテストレポートなどの成果物を共有し、セッションコンテキストを構造化マークダウンとして引き継ぐことができるローカルMCPサーバーです。

AskFirst APIは、AIエージェントに人間の承認レイヤーを追加します。
AskFirstは、AIエージェントが取り返しのつかない行動を起こす前に人間の承認を待つためのREST APIです。ローカルモデル、ホストされたAPI、あらゆるフレームワークと連携し、メール通知、承認/拒否オプション、監査ログを提供します。

ポータブル・マインド・フォーマット(PMF):プロバイダー非依存のエージェント仕様と15のオープンソースエージェント
Portable Mind Format(PMF)は、Claude、GPT-4、Gemini、DeepSeek、Ollamaを介したローカルモデルなど、複数のモデルやプロバイダー間で実行可能なAIエージェントのアイデンティティを定義するJSONベースの仕様です。15のMITライセンスのプロダクションエージェントと、Claude Code、Cursor、GitHub Copilot、Gemini CLI用のコンバーターを含みます。

Void-Boxアップデートにより、KVMマイクロVMを介したサンドボックス化されたOpenClaw-Telegram統合が追加されました。
AIエージェント向けの能力制限ランタイム「Void-Box」が、OpenClawをTelegramに接続して完全にサンドボックス化されたKVMマイクロVM内で実行する実例を追加しました。このシステムは各実行段階ごとにマイクロVMをオンデマンドで作成し、終了後に破棄することで状態の漏洩を防止します。