Benchmarks für spekulatives Decodieren auf RTX 3090 mit Qwen-Modellen für den Einsatz im HLK-Geschäft

✍️ OpenClawRadar📅 Veröffentlicht: 28. März 2026🔗 Source
Benchmarks für spekulatives Decodieren auf RTX 3090 mit Qwen-Modellen für den Einsatz im HLK-Geschäft
Ad

Hardware und Setup

Der Entwickler verwendete eine RTX 3090 24GB, Ryzen 7600X, 32GB RAM und WSL2 Ubuntu. Er wechselte von Ollama unter Windows zu llama.cpp unter WSL Linux mit spekulativer Dekodierung für eine interne KI-Plattform, die Kundenabfragen, Angebotsformatierung, Geräterecherche und das Parsen unordentlicher Arbeitsnotizen handhabt.

Testmethodik

Sie testeten 16 GGUF-Modelle aus den Qwen2.5-, Qwen3- und Qwen3.5-Familien, jede Ziel+Entwurf-Kombination, die in 24GB VRAM passt, generationsübergreifende Entwurfspaarungen (Qwen2.5-Entwürfe auf Qwen3-Zielen und umgekehrt) und überwachten den VRAM bei jeder Kombination, um CPU-Offloading zu erkennen. Die Qualitätsbewertung nutzte echte HLK-Geschäftsaufforderungen für SQL-Generierung, Angebotsformatierung, Parsen unordentlicher Feldnotizen und Gerätekompatibilitätslogik. Sie verwendeten draftbench und llama-throughput-lab für Geschwindigkeitstests, wobei Claude Code den Prozess über Nacht automatisierte.

Top-Geschwindigkeitsergebnisse

  • Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279,9 Tok/Sek. (+236% Beschleunigung, 13,6 GB VRAM)
  • Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205,4 Tok/Sek. (+50% Beschleunigung, ~6 GB VRAM)
  • Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190,5 Tok/Sek. (+129% Beschleunigung, 12,9 GB VRAM)
  • Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159,1 Tok/Sek. (+115% Beschleunigung, 13,5 GB VRAM)
  • Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137,5 Tok/Sek. (+186% Beschleunigung, ~16 GB VRAM)
  • Qwen3.5-35B-A3B Q4_K_M (Baseline, kein Entwurf): 133,6 Tok/Sek. (22 GB VRAM)
  • Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91,0 Tok/Sek. (+156% Beschleunigung, ~20 GB VRAM)

Die Qwen3-8B + 1.7B-Entwurfskombination erreichte eine 100%ige Akzeptanzrate – perfekte Entwurfsübereinstimmung, bei der das 1.7B-Modell genau vorhersagt, was das 8B-Modell generieren würde.

Ad

Qwen3.5-Denkmodus-Problem

Qwen3.5-Modelle starten standardmäßig im Denkmodus auf llama.cpp und generieren versteckte Denktoken, bevor sie antworten. Dies führte zu unberechenbaren Benchmark-Ergebnissen: 0 Tok/Sek. im Wechsel mit 700 Tok/Sek., TTFT sprang zwischen 1s und 28s. Nur drei Methoden funktionierten, um ihn zu deaktivieren:

  • --jinja + gepatchtes Chat-Template mit hartkodiertem enable_thinking=false
  • Roh-/completion-Endpunkt (umgeht Chat-Template vollständig) ✅
  • Alles andere (Systemaufforderungen, /no_think-Suffix, Temperatur-Tricks) ❌

Wenn Sie Qwen3.5 auf llama.cpp ausführen, benötigen Sie das gepatchte Template, sonst erhalten Sie unbrauchbare Benchmarks.

Ergebnisse der Qualitätsbewertung

Sie führten vier schwierige HLK-spezifische Aufforderungen durch, die mehrdeutige Kundenanfragen, komplexe Angebote, unordentliche Notizen mit Tippfehlern und Gerätekompatibilitätslogik testeten. Wichtige Erkenntnisse:

  • Jedes einzelne Modell scheiterte an der Preisformelmathematik: 8B, 14B, 32B, 35B – keines konnte $4.811 / (1 - 0,47) = $9.077 korrekt berechnen. LLMs können Geschäftsmathematik nicht zuverlässig – setzen Sie Ihre Formeln in Code.
  • Das 8B-Modell bewältigte 3/4 der schwierigen Aufforderungen – gut bei mehrdeutigen Anfragen, unordentlichen Notizen, täglichen Aufgaben – scheiterte aber bei technischer Gerätelogik.
  • Das 35B-A3B-Modell war das einzige mit echtem HLK-Fachwissen – dimensionierte korrekt eine Mini-Split-Anlage für eine ungedämmte Chicago-Garage, wusste, Hyper-Heat-Serie für kaltes Klima zu empfehlen, sagte korrekt, dass kein Branch-Box für Einzelzone benötigt wird – verpasste aber eine Modellnummer in unordentlichen Notizen und scheiterte an der Mathematik.
  • Größer ≠ besser überall: Das Qwen3-14B Q4_K_M (159 Tok/Sek.) schnitt bei den meisten Aufforderungen schlechter ab als das 8B-Modell. Das 32B-Modell empfahl eine 5-Tonnen-Einheit für eine 400 sqft Garage.
  • Qwen2.5-7B halluzinierte bei jedem Notizparsing-Test – erfand konsequent Details.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

KI-Agenten zeigen, wie viel Entwicklerarbeit aus der Ausführung repetitiver Aufgaben besteht.
Anwendungsfälle

KI-Agenten zeigen, wie viel Entwicklerarbeit aus der Ausführung repetitiver Aufgaben besteht.

Ein Entwickler, der KI-Agenten mit Gedächtnis und spezifischen Rollen einsetzte, stellte fest, dass der Großteil seiner täglichen Arbeit aus repetitiven Aufgaben wie Nachverfolgungen, Terminplanung, CRM-Aktualisierungen und Fristenverfolgung bestand, anstatt aus tatsächlichem Denken. Die Agenten entwickelten auch unerwartete Verhaltensweisen wie Persönlichkeitsverschiebungen und Leistungsänderungen basierend auf Feedback.

OpenClawRadar
Automatisierung von IRS-Steuerberichten für Glücksspiel mit OpenClaw
Anwendungsfälle

Automatisierung von IRS-Steuerberichten für Glücksspiel mit OpenClaw

Ein Entwickler nutzte OpenClaw, um Transaktionsdaten von DraftKings, FanDuel und BetRivers zu extrahieren, Bonuswetten herauszufiltern, Einsätze mit Auszahlungen über Kontostandkontinuität abzugleichen und IRS-fertige CSV-Dateien sowie PDF-Prüfberichte in einer einzigen Sitzung zu generieren.

OpenClawRadar
Readigo: iOS-App nutzt Claude als KI-Lese-Coach für Kinder
Anwendungsfälle

Readigo: iOS-App nutzt Claude als KI-Lese-Coach für Kinder

Ein Entwickler hat Readigo erstellt, eine iOS-App, in der Kinder Geschichten einem KI-Drachencharakter vorlesen. Claude analysiert Spracherkennungstranskripte, um die Leseleistung in Bezug auf Genauigkeit, Flüssigkeit, Tempo und Klarheit zu bewerten, und generiert dann altersgerechtes Feedback.

OpenClawRadar
Freiberufler entwickelt OpenClaw-Agent für visuelle App-Tests und gewinnt 11 Kunden
Anwendungsfälle

Freiberufler entwickelt OpenClaw-Agent für visuelle App-Tests und gewinnt 11 Kunden

Ein Frontend-Entwickler hat einen OpenClaw-Agenten erstellt, der visuelle Tests durchführt, indem er sich mit einem Cloud-Emulator verbindet und Benutzerabläufe ausführt, die in einfachen Aussagen beschrieben sind. Der Dienst generiert jetzt 3.840 US-Dollar/Monat wiederkehrende Einnahmen von 11 Kunden.

OpenClawRadar