Bodega Inference Engine: Optimierung der LLM-Inferenz für den einheitlichen Speicher von Apple Silicon

✍️ OpenClawRadar📅 Veröffentlicht: 19. März 2026🔗 Source
Bodega Inference Engine: Optimierung der LLM-Inferenz für den einheitlichen Speicher von Apple Silicon
Ad

Bodega ist eine Inferenz-Engine, die speziell für die Unified-Memory-Architektur von Apple Silicon entwickelt wurde und über 2,5 Jahre mit Optimierungen nahe der Metal-Schicht auf MLX aufgebaut wurde. Sie adressiert die grundlegenden Durchsatzbeschränkungen, mit denen Entwickler konfrontiert sind, wenn sie LLMs auf Mac-Hardware ausführen.

Warum Apple Silicon eine andere Optimierung erfordert

Apple Silicon verwendet Unified Memory, bei dem CPU, GPU und Neural Engine einen gemeinsamen physischen Speicherpool über einen einzigen On-Chip-Bus teilen. Dies unterscheidet sich grundlegend von diskreten GPUs wie denen von NVIDIA, die separate VRAM- und System-RAM-Pools haben, die über PCIe verbunden sind. Die Speicherbandbreite reicht von ~400 GB/s beim M1 Max bis ~800 GB/s beim M3 Ultra (wobei die Cross-Die-Strafe den tatsächlichen Durchsatz auf das 1,6- bis 1,8-fache der Single-Die-Leistung reduziert).

Wichtige architektonische Implikationen:

  • Decode ist speicherbandbreitenbeschränkt – jedes Token erfordert das Laden von Modellgewichten vom gemeinsamen Bus
  • Prefill ist rechenbeschränkt – dominiert von GPU-TFLOPS für Matrix-Matrix-Multiplikation
  • Der Speicherbus wird mit allem geteilt – KV-Cache, Modellgewichte, Betriebssystem und Anwendungen konkurrieren alle um die gleiche 400-800 GB/s Bandbreite

Diese Architektur macht direkte Portierungen der Batch-Implementierungen von vLLM oder llama.cpp auf MLX ineffektiv, da sie für unterschiedliche Speicherarchitekturen entwickelt wurden.

Ad

Was Bodega aufbaut

Der Entwickler studierte die Kerninterna von vLLM, einschließlich kontinuierlichem Batching, spekulativem Decoding, gechunktem Prefill und Prefix-Caching, und baute dann jede Komponente für MLX und Apples Unified-Memory-Modell neu auf.

Die zentrale Erkenntnis für kontinuierliches Batching: Das Generieren eines einzelnen Tokens für eine einzelne Sequenz lädt die vollständigen Modellgewichte für eine Matrix-Vektor-Multiplikation, was auf Hardware mit 400+ GB/s Bandbreite verschwenderisch ist. Die Lösung führt mehrere Sequenzen gleichzeitig aus, indem Gewichte × Matrix von Vektoren anstelle von Gewichten × einzelner Vektor verwendet werden.

Das KV-Cache-Management wurde für Unified Memory neu gestaltet, wo das Entfernen von Cache-Blöcken andere Kostenimplikationen hat als bei isolierten VRAM-Systemen.

Praktische Implikationen

Der Entwickler berichtet von Tests auf mehreren Apple-Silicon-Konfigurationen, darunter zwei M3 Ultras (256GB und 512GB), ein M4 Max 128GB und ein M1 Max 64GB. Die identifizierte gemeinsame Obergrenze ist der Single-User-Durchsatz mit einer Anfrage gleichzeitig und einer größtenteils inaktiven GPU.

Das Repository enthält Benchmarks, die mit einem einfachen curl-Skript für das Setup verifiziert werden können.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Repowise: Vorberechneter Codebase-Kontext für Claude Code halbiert Token-Nutzung und Aufgabenzeit
Werkzeuge

Repowise: Vorberechneter Codebase-Kontext für Claude Code halbiert Token-Nutzung und Aufgabenzeit

Repowise indexiert Ihre Codebasis in vier Ebenen (Abhängigkeitsgraph, Git-Signale, Doc-Wiki, ADRs) und stellt Claude Code acht MCP-Tools zur Verfügung, wodurch eine 30-Dateien-Archäologiesitzung auf 5 MCP-Aufrufe und 2 Minuten reduziert wird.

OpenClawRadar
Claude-gestütztes MCP-Tool erzeugt interaktive HTML-Komponenten ohne Build-Tools
Werkzeuge

Claude-gestütztes MCP-Tool erzeugt interaktive HTML-Komponenten ohne Build-Tools

Ein Entwickler hat daub.dev erstellt, ein System, in dem Claude einen MCP-Server steuert, um gestylte, interaktive HTML-UI-Komponenten aus natürlichen Sprachbeschreibungen zu erzeugen – ohne React, Bundler oder Build-Pipelines.

OpenClawRadar
Wie Mendral die LLM-Kosten durch ein Upgrade auf Opus senkte: Triager-Muster, SQL-Zugriff und Sub-Agent-Architektur
Werkzeuge

Wie Mendral die LLM-Kosten durch ein Upgrade auf Opus senkte: Triager-Muster, SQL-Zugriff und Sub-Agent-Architektur

Mendral wechselte für die Analyse von CI-Fehlern von Sonnet zu Opus 4.6, senkte aber die Kosten, indem es einen Haiku-Triager einsetzte, der 80 % der Fehler abfing, den Agenten SQL-Zugriff auf ClickHouse statt Log-Push gab und günstige Unteragenten für die eigentliche Detektivarbeit einsetzte.

OpenClawRadar
Kriminalteam: Multi-Agent-Orchestrator für OpenClaw — Parallele Code-Überprüfung mit Coder-Agent
Werkzeuge

Kriminalteam: Multi-Agent-Orchestrator für OpenClaw — Parallele Code-Überprüfung mit Coder-Agent

Crime Team v0.1 führt mehrere spezialisierte OpenClaw-Agenten parallel zur Code-Überprüfung aus und integriert die Ergebnisse. Enthält agentenspezifische Modelle, einen Coder-Agenten, der Änderungen anwendet, und eine erneute Prüfschleife. CLI + GUI.

OpenClawRadar