RTX 5060 Ti 16GB Lokale LLM-Benchmarks: 30B-Modelle Programmieren Vorn

Lokale LLM-Leistungsergebnisse mit RTX 5060 Ti 16GB

Tests auf einer RTX 5060 Ti 16GB mit 32 GB DDR4-RAM unter Verwendung von llama-server b8373 (46dba9fce) zeigen praktische Leistungsmerkmale für lokale LLM-Codierungs-Workflows. Das Setup nutzte llama.cpp mit spezifischen Starteinstellungen: Fast-Path mit fa=on, ngl=auto, threads=8 und KV-Einstellungen -ctk q8_0 -ctv q8_0.

Modell-Leistungsergebnisse

Der Benchmark verglich mehrere quantisierte Modelle mit diesen zentralen Erkenntnissen:

Bestes Standard-Codemodell: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
Beste Option für höheren Kontext beim Codieren: Dasselbe Unsloth 30B-Modell bei 96k Kontext
Beste schnelle 35B-Codierungsoption: Unsloth Qwen3.5-35B UD-Q2_K_XL

Leistungsmetriken

Token-Generierungsgeschwindigkeiten aus lokalen Tests:

Jackrong Qwen 3.5 4B Q5_K_M: 88 Tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 Tok/s
Jackrong Qwen 3.5 27B Q3_K_S: ~20 Tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76,3 Tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80,1 Tok/s

Plattformübergreifender Vergleich

Abgestimmte Tests mit 20 Fragen, 32k Kontext und max_tokens=800 zeigten:

Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79,5 Tok/s, Qualität 7,94 | Ubuntu: 76,3 Tok/s, Qualität 8,14
Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72,3 Tok/s, Qualität 7,40 | Ubuntu: 80,1 Tok/s, Qualität 7,39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19,9 Tok/s, Qualität 8,85 | Ubuntu: ~20,0 Tok/s, Qualität 8,21

Konfigurationshinweise

Der 30B-Coder-Pfad verwendete: jinja, reasoning-budget 0, reasoning-format none. Der 35B UD-Pfad verwendete: c=262144, n-cpu-moe=8. Für das 35B Q4_K_M Stable Tune waren die Einstellungen: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Bemerkenswerterweise benötigte das 35B Q4_K_M-Modell spezifische Abstimmungen, um stabil auf dieser Karte zu laufen, übertraf aber in der praktischen Anwendung den älteren UD-Q2_K_XL-Pfad dennoch nicht. Der Autor stellte fest, dass kleinere Modelle (9B-Route) und aufwändigere Experimente (35B Q4_K_M) trotz Erwartungen nicht die stärksten Wahlmöglichkeiten für den realen Einsatz waren.

Ubuntu-Leistungstests

Zusätzliche fokussierte Tests auf Ubuntu mit dem Jackrong 27B-Modell zeigten minimale Abweichungen:

-fa on, auto parallel: 19,95 Tok/s
-fa auto, auto parallel: 19,56 Tok/s
-fa on, --parallel 1: 19,26 Tok/s

Flash-Attention-Einstellungen und Parallelverarbeitungsparameter hatten einen vernachlässigbaren Einfluss auf die Leistung dieses speziellen Modells.

📖 Read the full source: r/LocalLLaMA

RTX 5060 Ti 16GB Lokale LLM-Benchmarks: 30B-Modelle liegen beim Programmieren immer noch vorn

Lokale LLM-Leistungsergebnisse mit RTX 5060 Ti 16GB

Modell-Leistungsergebnisse

Leistungsmetriken

Plattformübergreifender Vergleich

Konfigurationshinweise

Ubuntu-Leistungstests

👀 Siehe auch

Anthropic macht Claude für den Rechtsbereich Open-Source: Plugin-Suite für Vertragsprüfung, NDA-Triage und mehr

Claude Code Studio: Open-Source Desktop-App zur Verwaltung mehrerer Claude-Coding-Sitzungen

„Gefundene-Probleme“-Plugin protokolliert Fehler, die Claude bei anderen Aufgaben ignoriert

OnUI: Browser-Erweiterung für präzises UI-Feedback an Claude Code