oMLX führt SSD-KV-Caching für Apple Silicon ein und reduziert die Antwortzeiten von OpenClaw von 30-90 Sekunden auf 5 Sekunden.

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
oMLX führt SSD-KV-Caching für Apple Silicon ein und reduziert die Antwortzeiten von OpenClaw von 30-90 Sekunden auf 5 Sekunden.
Ad

Was oMLX löst

OpenClaw lokal auszuführen bedeutet normalerweise, dass bei jeder Anfrage das gleiche riesige System-Prompt (20-30k Token mit Tools, Fähigkeiten, Arbeitsbereichskontext) gesendet wird. Während Ollama und LM Studio den KV-Zustand zwischenspeichern, invalidieren sie den gesamten Cache und berechnen ihn bei Kontextwechseln während einer Sitzung neu, was zu Antwortzeiten von 30-90 Sekunden führt.

oMLX behebt dies, indem KV-Cache-Blöcke im Safetensors-Format auf der SSD gespeichert werden. Wenn ein zuvor gesehenes Präfix zurückkehrt, wird es von der Festplatte wiederhergestellt statt neu berechnet – funktioniert über Anfragen und Server-Neustarts hinweg. Da das System-Prompt von OpenClaw größtenteils statisch ist (nur Zeitstempel und Laufzeit-Metadaten ändern sich), bedeutet SSD-Caching, dass nur geänderte Teile neu berechnet werden.

Leistungsbenchmarks

Getestet mit Qwen3.5-122B-A10B-4bit auf M3 Ultra 512GB:

  • Einzelanfrage-Benchmarks:
    • 1k Kontext: 768 Tok/s Prompt-Verarbeitung, 56,6 Tok/s Generierung, 65,5 GB Spitzenspeicher
    • 8k Kontext: 940 Tok/s Prompt-Verarbeitung, 51,4 Tok/s Generierung, 69,3 GB Spitzenspeicher
    • 32k Kontext: 764 Tok/s Prompt-Verarbeitung, 42,4 Tok/s Generierung, 73,4 GB Spitzenspeicher
  • Kontinuierliches Batching (pp1024/tg128):
    • 1x Batch: 56,6 Tok/s, 1,00x Beschleunigung
    • 2x Batch: 92,1 Tok/s, 1,63x Beschleunigung
    • 4x Batch: 135,1 Tok/s, 2,39x Beschleunigung
    • 8x Batch: 190,2 Tok/s, 3,36x Beschleunigung
Ad

Einrichtung mit OpenClaw

  • Laden Sie die DMG von den Releases herunter und ziehen Sie sie in den Applications-Ordner
  • Richten Sie es auf Ihr Modellverzeichnis (verwendet LM Studio-Modelle, kein erneuter Download nötig)
  • Fügen Sie oMLX als benutzerdefinierten Provider in openclaw.json hinzu
  • Das Web-Dashboard generiert die genaue Konfiguration – kein Terminal erforderlich

Zusätzliche Funktionen

  • Multi-Modell-Serving: LLM + Embedding + Reranker gleichzeitig
  • Tool-Aufrufe für alle gängigen Formate (JSON, Qwen, Gemma, GLM) + MCP
  • Tool-Ergebnis-Trimming – kürzt zu große Tool-Ausgaben
  • OpenAI + Anthropic /v1/messages Drop-in-Kompatibilität
  • Native macOS-Menüleisten-App (kein Electron)
  • Apache 2.0 Lizenz, 100 % Open Source

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

Routine-Arbeiten von Claude Code an Gemma über den offload-mcp MCP-Server auslagern
Werkzeuge

Routine-Arbeiten von Claude Code an Gemma über den offload-mcp MCP-Server auslagern

offload-mcp ist ein neuer MCP-Server, der es Claude ermöglicht, Routinetätigkeiten wie Commit-Nachrichten und PR-Zusammenfassungen an kostenlose Modell-APIs (Standardmäßig Gemma über die Google GenAI API) auszulagern. Dadurch werden Claude-Token gespart und leichte Arbeiten ohne lokale Hardwareeinschränkungen erledigt.

OpenClawRadar
Top 6 Open-Source-Claude-Fähigkeiten (15. April – 3. Mai)
Werkzeuge

Top 6 Open-Source-Claude-Fähigkeiten (15. April – 3. Mai)

Sechs Open-Source-Claude-Skills aus den letzten 15 Tagen: Brand-Alchemy, npm-Downloads-to-Leads, Hyperframes, Email-Newsletter, Pricing und mehr. Detaillierte Aufschlüsselung der Funktionalität jedes Skills.

OpenClawRadar
PreToolUse-Hook behebt Absturzproblem bei Claude-Code-Bildern
Werkzeuge

PreToolUse-Hook behebt Absturzproblem bei Claude-Code-Bildern

Ein Entwickler hat einen PreToolUse-Hook erstellt, der die Read-Aufrufe von Claude Code für Bilder abfängt, sie sicher konvertiert und sie über einen Haiku-Subprozess weiterleitet, um API-Fehler 400 durch problematische Bilder zu verhindern.

OpenClawRadar
NotebookLM MCP Strukturiert: Kostenloser Server verbindet Claude mit NotebookLM durch automatische Prompt-Strukturierung
Werkzeuge

NotebookLM MCP Strukturiert: Kostenloser Server verbindet Claude mit NotebookLM durch automatische Prompt-Strukturierung

Ein kostenloser MCP-Server namens NotebookLM MCP Structured verbindet Claude Desktop mit NotebookLM-Notebooks durch automatische Prompt-Strukturierung. Der Server strukturiert Abfragen basierend auf ihrem Typ (Vergleich, Liste, Analyse, Erklärung oder Extraktion) und fügt Vollständigkeitsprüfungen sowie Treuebeschränkungen hinzu.

OpenClawRadar