Claude 4.6 Opus Reasoning auf 14 GB für Apple Silicon mittels MLX-Quantisierung destilliert

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Claude 4.6 Opus Reasoning auf 14 GB für Apple Silicon mittels MLX-Quantisierung destilliert
Ad

Ein Entwickler hat erfolgreich ein lokales KI-Modell quantisiert, das die Denkfähigkeiten von Claude 4.6 Opus auf Apple Silicon Hardware bringt und dabei seinen Speicherbedarf erheblich reduziert, während die Leistung erhalten bleibt.

Das Modell und sein Ursprung

Die Arbeit konzentriert sich auf Qwen 3.5 27B, insbesondere eine Version, die aus Claude 4.6 Opus Reasoning Trajectories destilliert wurde. Der Entwickler suchte ein Modell, das "denken" kann, anstatt nur Code zu vervollständigen, und beschrieb Opus' Signatur als "überlegt, analytisch und fängt die subtilen architektonischen Schwächen auf, die andere Modelle übersehen". Diese destillierte Version bringt dieses "Denkgerüst" in eine Open-Weight-Architektur.

Der Quantisierungsprozess

Das ursprüngliche Modell war 55,6 GB im BF16-Format, was der Entwickler als "nicht startfähig" für die meisten lokalen Setups bezeichnete, da es den gesamten Speicherpool verbraucht. Um dies zu lösen, verwendete er MLX, um das Modell für Apple Silicon zu quantisieren und es auf 4-Bit-Präzision zu konvertieren. Das Ziel war es, die hochwertige Opus-Denkfähigkeit beizubehalten und es gleichzeitig schlank genug für den täglichen Einsatz in technischer Planung und komplexer Logik zu machen.

Ad

Ergebnisse und Leistung

  • Speicherbedarf: Reduziert von 55 GB auf 14 GB
  • Geschwindigkeit: ~16 Token/Sekunde auf einem M4 Pro
  • Denkfähigkeit: Behält den vollständigen <think>-Block bei, sodass das Modell "mit sich selbst sprechen" kann, um Logik zu überprüfen, Randfälle zu simulieren und sich selbst zu korrigieren, bevor es endgültige Antworten präsentiert

Verfügbarkeit und Anforderungen

Der Entwickler hat die Gewichte auf Hugging Face hochgeladen. Das Modell benötigt einen Mac mit 24 GB+ RAM, um private, hochwertige Logik und technische Planung vollständig offline auszuführen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase
Werkzeuge

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase

TUI Studio ist ein Figma-ähnlicher visueller Editor zum Gestalten von Terminal-Benutzeroberflächen mit Drag-and-Drop-Komponenten, Echtzeit-ANSI-Vorschau und geplantem Export zu sechs Frameworks, darunter Ink, BubbleTea und Textual. Derzeit in der Alpha-Phase mit nicht funktionierenden Exporten, verfügbar für macOS, Windows und Docker.

OpenClawRadar
StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen
Werkzeuge

StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen

StarSteady ist ein von einer Einzelperson entwickeltes SaaS, das KI-generierte Antworten auf Google-/Yelp-Bewertungen erstellt und SMS-Bewertungsanfragen an Kunden sendet. Der Preis beginnt bei 39 $/Monat, mit einem kostenlosen Testangebot für 5 Antworten/5 SMS.

OpenClawRadar
Klauenverdichter: 14-stufige Token-Kompressions-Engine für LLM-Pipelines
Werkzeuge

Klauenverdichter: 14-stufige Token-Kompressions-Engine für LLM-Pipelines

Claw Compactor ist eine Open-Source-LLM-Token-Komprimierungs-Engine, die eine 14-stufige Fusion-Pipeline verwendet, um eine durchschnittliche Kompression von 54 % ohne LLM-Inferenzkosten zu erreichen. Sie umfasst spezialisierte Kompressoren für Code, JSON, Protokolle, Diffs und Suchergebnisse mit reversiblen Komprimierungsfähigkeiten.

OpenClawRadar
Claude Code undokumentierte Funktionen: Hooks, Memory, YOLO-Klassifikator und mehr
Werkzeuge

Claude Code undokumentierte Funktionen: Hooks, Memory, YOLO-Klassifikator und mehr

Der Claude Code-Quellcode enthüllt verborgene Konfigurationen: YOLO-Klassifikator zur automatischen Genehmigung, Hooks, die Befehle umschreiben, persistentes Agentengedächtnis, Auto-Modus-Regeln in einfachem Englisch und Traumschleifen.

OpenClawRadar