Qwen 3.6 27B Quantisierungs-Benchmark: Q4_K_M schlägt Q8_0 bei praktischen Abwägungen

✍️ OpenClawRadar📅 Veröffentlicht: 28. April 2026🔗 Source
Qwen 3.6 27B Quantisierungs-Benchmark: Q4_K_M schlägt Q8_0 bei praktischen Abwägungen
Ad

Ein Reddit-Benutzer hat Qwen 3.6 27B in drei GGUF-Quantisierungsvarianten (BF16, Q4_K_M, Q8_0) mit llama-cpp-python über das Neo AI Engineer-Framework getestet. Die Auswertung umfasste insgesamt 664 Stichproben in drei Aufgaben: HumanEval (Codegenerierung, 164 Stichproben), HellaSwag (gesunder Menschenverstand, 100 Stichproben) und BFCL (Funktionsaufruf, 400 Stichproben).

Testergebnisse

  • BF16 (Modellgröße 53,8 GB, Spitzen-RAM 54 GB, Durchsatz 15,5 tok/s): HumanEval 56,10 % (92/164), HellaSwag 90,00 % (90/100), BFCL 63,25 % (253/400). Durchschnittliche Genauigkeit: 69,78 %.
  • Q4_K_M (16,8 GB, 28 GB RAM, 22,5 tok/s): HumanEval 50,61 % (83/164), HellaSwag 86,00 % (86/100), BFCL 63,00 % (252/400). Durchschnitt: 66,54 %.
  • Q8_0 (28,6 GB, 42 GB RAM, 18,0 tok/s): HumanEval 52,44 % (86/164), HellaSwag 83,00 % (83/100), BFCL 63,00 % (252/400). Durchschnitt: 66,15 %.
Ad

Wichtige Erkenntnisse

Q4_K_M ist die herausragende praktische Variante. Sie bewahrt die BFCL-Genauigkeit (63,00 % vs. 63,25 %), verliert nur etwa 5,5 Punkte bei HumanEval und liegt bei HellaSwag etwa 4 Punkte hinter BF16. Die Kompromisse: 1,45-mal schneller als BF16, 48 % weniger Spitzen-RAM, 68,8 % kleinere Datei und nahezu identische Funktionsaufrufleistung. Q8_0 war enttäuschend: Es verbesserte HumanEval nur um etwa 1,8 Punkte gegenüber Q4_K_M, benötigte aber 42 GB RAM statt 28 GB, war langsamer und erzielte bei HellaSwag niedrigere Werte.

Für lokale/CPU-Bereitstellung wird Q4_K_M empfohlen, es sei denn, die Arbeitslast konzentriert sich stark auf Codegenerierung. Für maximale Qualität gewinnt immer noch BF16.

Testaufbau

GGUF-Varianten über llama-cpp-python mit n_ctx: 32768, kontrollierte Auswertung. Das Neo AI Engineer Framework erstellte die GGUF-Auswertungspipeline, führte kontrollierte Läufe durch und fasste die Ergebnisse zusammen. Eine vollständige Fallstudie mit Codeausschnitten ist in den ursprünglichen Reddit-Kommentaren verlinkt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata
Werkzeuge

Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata

Eine Fortsetzung des früheren Beitrags zum Funktionsaufruf-Harness erweitert das Muster auf Bereiche ohne Compiler (Investitionsmemoranden, Rechtsgutachten, klinische Diagramme). Das Schema erzwingt Pflichtfelder – die Einreichung wird abgelehnt, wenn sie unvollständig ist. Qwen3.6-27b erreicht 100% CoT-Compliance bei diesen Schemata.

OpenClawRadar
Savant Commander 48B: Ein benutzerdefiniertes Qwen 3 Mixture-of-Experts-Modell mit 12 destillierten Modellen
Werkzeuge

Savant Commander 48B: Ein benutzerdefiniertes Qwen 3 Mixture-of-Experts-Modell mit 12 destillierten Modellen

Savant Commander 48B ist ein benutzerdefiniertes Qwen 3 Mixture-of-Experts-Modell mit handkodiertem Routing, das 12 destillierte Modelle von Anbietern wie Claude, Gemini, OpenAI und Deepseek kombiniert. Es verfügt über eine Kontextlänge von 256K und ermöglicht die promptgesteuerte Aktivierung spezifischer destillierter Modelle.

OpenClawRadar
Analyzing AI Coding Tools: Dissecting 3,177 API Calls

**Analyse von KI-Coding-Tools: Zergliederung von 3.177 API-Aufrufen**
Werkzeuge

Analyzing AI Coding Tools: Dissecting 3,177 API Calls **Analyse von KI-Coding-Tools: Zergliederung von 3.177 API-Aufrufen**

Eine technische Analyse von 3.177 API-Aufrufen zeigt, wie vier KI-Coding-Tools mit Kontextfenstern umgehen, und offenbart Ineffizienzen und Unterschiede.

OpenClawRadar
Mandala v0.3: Open-Source-Runtime für asynchrone Logistik-Telemetrie als OpenTelemetry-Spans zur Agentenargumentation
Werkzeuge

Mandala v0.3: Open-Source-Runtime für asynchrone Logistik-Telemetrie als OpenTelemetry-Spans zur Agentenargumentation

Mandala v0.3 bietet eine quelloffene Async-Runtime, die Telemetriedaten von Samsara, Descartes, Vizion und FMCSA über Webhooks aufnimmt, Ereignisse als OpenTelemetry-Spans ausgibt und Daten über MCP-Tools für LLM-Agenten bereitstellt.

OpenClawRadar