Testen von δ-Mem auf Apple Silicon: MLX-Implementierung und Benchmarks

✍️ OpenClawRadar📅 Veröffentlicht: 16. Mai 2026🔗 Source
Testen von δ-Mem auf Apple Silicon: MLX-Implementierung und Benchmarks
Ad

Ein Reddit-Nutzer hat das δ-mem-Forschungspapier (arXiv 2605.12357) für Apple Silicon mit mlx und OpenClaw-Integration implementiert. Das Papier verbessert die Aufmerksamkeitsrichtung des Modells ohne Kontext oder LoRA und berichtet von 20% besseren Antworten in ihren Tests. Die Implementierung verwendete Qwen3-4B-Instruct über mlx und benutzerdefinierte Adapter.

Benchmark-Ergebnisse (normalisierte mlx-Tests, Qwen3-4B-Instruct auf MacMini 64GB):

  • Synthetisch (Paper-Stil): Ohne 0,5129, δ-mem 0,5129 (1,00x)
  • LoCoMo-10 mini: Ohne 0,0500, δ-mem 0,1833 (3,67x)
  • OpenClaw-Replay: Ohne 0,5701, δ-mem 0,6667 (1,17x)

Latenzkosten (vs. ohne):

  • Synthetisch: 1,013x
  • LoCoMo-10 mini: 1,33x Abfrage / 1,50x gesamt
  • OpenClaw-Replay: 1,30x

Wichtige Links:

Erkenntnisse:

Ad
  • Synthetische Sonden waren flach (1,00x), aber LoCoMo-mini zeigte starke relative Verbesserungen (3,67x).
  • OpenClaw-ähnliches Replay zeigte eine praktisch bedeutsame Verbesserung (6/8 → 7/8 Sonden bestanden, 1,17x).
  • Der Nutzer merkt an, dass Apple Silicon CUDA nicht effizient ausführen kann, daher sind die Ergebnisse niedriger als die Paper-Benchmarks. Die Paper-Benchmarks (Qwen3-4B-Instruct) zeigten durchschnittlich 1,10x vs. eingefrorenem Backbone, MemoryAgentBench 1,31x, LoCoMo 1,20x.
  • Der Nutzer sucht Hilfe (oder Finanzierung ~6.000 $), um einen Adapter für größere Modelle wie Qwen3.6:27B zu trainieren.

Für wen es ist: Entwickler, die lokale LLM-Agenten auf Apple Silicon ausführen und mit δ-mem-Gewichtsmodulation experimentieren möchten, um die Gedächtnis-/Kontextleistung zu verbessern.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Desktop App Cowork-Funktion ermöglicht KI-zu-KI-Kommunikation über gemeinsame Google Docs
Werkzeuge

Claude Desktop App Cowork-Funktion ermöglicht KI-zu-KI-Kommunikation über gemeinsame Google Docs

Nutzer haben erfolgreich eine Claude-zu-Claude-Kommunikation mithilfe der neuen Cowork-Funktion in der Desktop-App implementiert, wobei zwei Agenten ein gemeinsames Google Doc lesen und darin schreiben. Der Test umfasste fünf Runden eines Frage-Antwort-Dialogs zwischen den KI-Agenten.

OpenClawRadar
Text Adventure Game Engine Skill für Claude Desktop
Werkzeuge

Text Adventure Game Engine Skill für Claude Desktop

Eine Textadventure-Spiel-Engine läuft vollständig innerhalb von Claude Desktop als Skill, ohne Server, Apps oder Code, der ausgeführt werden muss. Sie umfasst vollständige RPG-Mechaniken, 3D-Würfel-Rendering, 19 Erweiterungsmodule und portable Speicherdateien.

OpenClawRadar
AgentMind: Ein Claude-Code-Plugin, das Ihre Programmierpräferenzen lernt und anwendet
Werkzeuge

AgentMind: Ein Claude-Code-Plugin, das Ihre Programmierpräferenzen lernt und anwendet

AgentMind ist ein Claude Code-Plugin, das Ihre Codierungsmuster beobachtet, Präferenzen wie Werkzeugauswahl und Stilregeln lernt und diesen Kontext automatisch in zukünftige Sitzungen einfügt. Es verwendet eine sechsstufige Kernschleife und Konfidenzbewertung, um zu bestimmen, wann gelernte Präferenzen angewendet werden sollen.

OpenClawRadar
Mobile Harness: Browser-Use-Fähigkeiten für Claude-Agenten in Mobile Apps integrieren
Werkzeuge

Mobile Harness: Browser-Use-Fähigkeiten für Claude-Agenten in Mobile Apps integrieren

Mobile Harness gibt Claude/Agenten wiederverwendbare mobile App-Fähigkeiten (Reddit, Instagram, TikTok) unter Verwendung von MobAI als Ausführungsschicht. Funktioniert mit echten Geräten, Emulatoren, Simulatoren, kostenloses tägliches Kontingent.

OpenClawRadar