Claude mit einem lokalen LLM als Assistent über MCP auf dem Mac ausstatten

Ein Reddit-Nutzer beschrieb, wie er Claude über eine MCP-Verbindung zu Ollama Zugriff auf ein lokales LLM auf einem Mac Mini M4 (24 GB RAM) gewährte. Der Aufbau verwendet Ollama, das Qwen 2.5 Coder (14B) als Assistenten namens 'Frank' bereitstellt. Claude kann Frank unter bestimmten Regeln Aufgaben delegieren – er muss weniger Token verbrauchen als Claude selbst, darf die Qualität nicht beeinträchtigen und erfordert eine abschließende Überprüfung.
Einrichtung im Detail
- Hardware: Mac Mini M4 mit 24 GB RAM.
- Lokales LLM: Qwen 2.5 Coder (14B), ausgeführt über Ollama (ebenfalls getestet mit LM Studio).
- Verbindung: MCP (Model Context Protocol), um Claude (CLI oder Desktop-App) mit dem lokalen Modell zu verbinden.
- Anweisungen: Claude erhielt eine Markdown-Datei (
memory.md) mit Richtlinien, wann und wie Frank eingesetzt werden soll – z. B. für Textverarbeitung, die Bearbeitung großer CSS/HTML-Dateien, und nur dann, wenn es Token spart, ohne die Ausgabequalität zu beeinträchtigen.
Praktische Anwendungsfälle
- Textverarbeitung und -transformation – an Frank ausgelagert, um Claudes Token-Verbrauch zu reduzieren.
- Umgang mit großen CSS/HTML-Dateien, deren direkte Verarbeitung durch Claude teuer wäre.
- Durchführung von Leistungs-, Programmier- und Logiktests – Claude bewertete lokale Modelle über Frank anstatt manuell.
Der Nutzer wies darauf hin, dass er an den Grenzen seines RAM/GPU arbeitet und keine größeren Modelle (30B+) testen kann. Er lud andere mit leistungsfähigerer Hardware ein, ähnliche Aufbauten zu versuchen und Ergebnisse zu teilen.
Dieser Ansatz schafft effektiv einen kostenlosen Assistenten für Claude, der token-intensive Aufgaben auslagert, während die Qualität durch Claudes abschließende Überprüfung erhalten bleibt.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Code-Entscheidungen: Open-Source-Claude-Plugin erfasst technische Entscheidungen
Code Decisions ist ein Open-Source-Claude-Code-Plugin, das technische Entscheidungen aus Gesprächen erfasst und sie anzeigt, wenn betroffene Dateien bearbeitet werden. Es schreibt Entscheidungen als Markdown-Dateien in .claude/decisions/ mit einem affects-Feld, das auf die verwalteten Dateien verweist.

md-viewer: Ein Live-Reloading-Markdown-Viewer für Claude-Code-Workflows
md-viewer ist ein leichtgewichtiges Rust-Tool, das Live-Reloading für Markdown-Dateien bietet, die von Claude Code generiert werden. Es läuft unabhängig von Editoren, unterstützt Mermaid-Diagramme und kann über AUR, Snap oder Cargo installiert werden.

Entwickler testet Qwen3.5 27B im Vergleich zu größeren Modellen für lokale Programmieraufgaben
Ein Entwickler testete mehrere Qwen3.5- und Nemotron-Modelle und stellte fest, dass Qwen3.5-27B-GGUF:UD-Q6_K_XL für Entwicklungsaufgaben auf bestehender 2x RTX 3090-Hardware gut abschneidet, mit 803 pp und 25 tg/s bei 256k Kontext auf vast.ai.

ClawClone: Cloud-Backup-Tool für OpenClaw-Arbeitsbereiche
ClawClone ist ein Tool, das OpenClaw-Arbeitsbereiche mit einem Befehl in die Cloud sichert und mit einem weiteren wiederherstellt. Es wurde entwickelt, nachdem ein Entwickler einen Monat an Trainingsdaten verloren hatte.