Claude 4.6 Opus Reasoning auf 14 GB für Apple Silicon mittels MLX-Quantisierung destilliert

Ein Entwickler hat erfolgreich ein lokales KI-Modell quantisiert, das die Denkfähigkeiten von Claude 4.6 Opus auf Apple Silicon Hardware bringt und dabei seinen Speicherbedarf erheblich reduziert, während die Leistung erhalten bleibt.
Das Modell und sein Ursprung
Die Arbeit konzentriert sich auf Qwen 3.5 27B, insbesondere eine Version, die aus Claude 4.6 Opus Reasoning Trajectories destilliert wurde. Der Entwickler suchte ein Modell, das "denken" kann, anstatt nur Code zu vervollständigen, und beschrieb Opus' Signatur als "überlegt, analytisch und fängt die subtilen architektonischen Schwächen auf, die andere Modelle übersehen". Diese destillierte Version bringt dieses "Denkgerüst" in eine Open-Weight-Architektur.
Der Quantisierungsprozess
Das ursprüngliche Modell war 55,6 GB im BF16-Format, was der Entwickler als "nicht startfähig" für die meisten lokalen Setups bezeichnete, da es den gesamten Speicherpool verbraucht. Um dies zu lösen, verwendete er MLX, um das Modell für Apple Silicon zu quantisieren und es auf 4-Bit-Präzision zu konvertieren. Das Ziel war es, die hochwertige Opus-Denkfähigkeit beizubehalten und es gleichzeitig schlank genug für den täglichen Einsatz in technischer Planung und komplexer Logik zu machen.
Ergebnisse und Leistung
- Speicherbedarf: Reduziert von 55 GB auf 14 GB
- Geschwindigkeit: ~16 Token/Sekunde auf einem M4 Pro
- Denkfähigkeit: Behält den vollständigen <think>-Block bei, sodass das Modell "mit sich selbst sprechen" kann, um Logik zu überprüfen, Randfälle zu simulieren und sich selbst zu korrigieren, bevor es endgültige Antworten präsentiert
Verfügbarkeit und Anforderungen
Der Entwickler hat die Gewichte auf Hugging Face hochgeladen. Das Modell benötigt einen Mac mit 24 GB+ RAM, um private, hochwertige Logik und technische Planung vollständig offline auszuführen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase
TUI Studio ist ein Figma-ähnlicher visueller Editor zum Gestalten von Terminal-Benutzeroberflächen mit Drag-and-Drop-Komponenten, Echtzeit-ANSI-Vorschau und geplantem Export zu sechs Frameworks, darunter Ink, BubbleTea und Textual. Derzeit in der Alpha-Phase mit nicht funktionierenden Exporten, verfügbar für macOS, Windows und Docker.

StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen
StarSteady ist ein von einer Einzelperson entwickeltes SaaS, das KI-generierte Antworten auf Google-/Yelp-Bewertungen erstellt und SMS-Bewertungsanfragen an Kunden sendet. Der Preis beginnt bei 39 $/Monat, mit einem kostenlosen Testangebot für 5 Antworten/5 SMS.

Klauenverdichter: 14-stufige Token-Kompressions-Engine für LLM-Pipelines
Claw Compactor ist eine Open-Source-LLM-Token-Komprimierungs-Engine, die eine 14-stufige Fusion-Pipeline verwendet, um eine durchschnittliche Kompression von 54 % ohne LLM-Inferenzkosten zu erreichen. Sie umfasst spezialisierte Kompressoren für Code, JSON, Protokolle, Diffs und Suchergebnisse mit reversiblen Komprimierungsfähigkeiten.

Claude Code undokumentierte Funktionen: Hooks, Memory, YOLO-Klassifikator und mehr
Der Claude Code-Quellcode enthüllt verborgene Konfigurationen: YOLO-Klassifikator zur automatischen Genehmigung, Hooks, die Befehle umschreiben, persistentes Agentengedächtnis, Auto-Modus-Regeln in einfachem Englisch und Traumschleifen.