Qwen 3.5 27B auf 14 GB mit MLX für Apple Silicon

Ein Entwickler hat erfolgreich ein lokales KI-Modell quantisiert, das die Denkfähigkeiten von Claude 4.6 Opus auf Apple Silicon Hardware bringt und dabei seinen Speicherbedarf erheblich reduziert, während die Leistung erhalten bleibt.

Das Modell und sein Ursprung

Die Arbeit konzentriert sich auf Qwen 3.5 27B, insbesondere eine Version, die aus Claude 4.6 Opus Reasoning Trajectories destilliert wurde. Der Entwickler suchte ein Modell, das "denken" kann, anstatt nur Code zu vervollständigen, und beschrieb Opus' Signatur als "überlegt, analytisch und fängt die subtilen architektonischen Schwächen auf, die andere Modelle übersehen". Diese destillierte Version bringt dieses "Denkgerüst" in eine Open-Weight-Architektur.

Der Quantisierungsprozess

Das ursprüngliche Modell war 55,6 GB im BF16-Format, was der Entwickler als "nicht startfähig" für die meisten lokalen Setups bezeichnete, da es den gesamten Speicherpool verbraucht. Um dies zu lösen, verwendete er MLX, um das Modell für Apple Silicon zu quantisieren und es auf 4-Bit-Präzision zu konvertieren. Das Ziel war es, die hochwertige Opus-Denkfähigkeit beizubehalten und es gleichzeitig schlank genug für den täglichen Einsatz in technischer Planung und komplexer Logik zu machen.

Ergebnisse und Leistung

Speicherbedarf: Reduziert von 55 GB auf 14 GB
Geschwindigkeit: ~16 Token/Sekunde auf einem M4 Pro
Denkfähigkeit: Behält den vollständigen <think>-Block bei, sodass das Modell "mit sich selbst sprechen" kann, um Logik zu überprüfen, Randfälle zu simulieren und sich selbst zu korrigieren, bevor es endgültige Antworten präsentiert

Verfügbarkeit und Anforderungen

Der Entwickler hat die Gewichte auf Hugging Face hochgeladen. Das Modell benötigt einen Mac mit 24 GB+ RAM, um private, hochwertige Logik und technische Planung vollständig offline auszuführen.

📖 Read the full source: r/LocalLLaMA

Claude 4.6 Opus Reasoning auf 14 GB für Apple Silicon mittels MLX-Quantisierung destilliert

Das Modell und sein Ursprung

Der Quantisierungsprozess

Ergebnisse und Leistung

Verfügbarkeit und Anforderungen

👀 Siehe auch

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase

StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen

Klauenverdichter: 14-stufige Token-Kompressions-Engine für LLM-Pipelines

Claude Code undokumentierte Funktionen: Hooks, Memory, YOLO-Klassifikator und mehr