RTX 5060 Ti 16GB Lokale LLM-Benchmarks: 30B-Modelle liegen beim Programmieren immer noch vorn

✍️ OpenClawRadar📅 Veröffentlicht: 19. April 2026🔗 Source
RTX 5060 Ti 16GB Lokale LLM-Benchmarks: 30B-Modelle liegen beim Programmieren immer noch vorn
Ad

Lokale LLM-Leistungsergebnisse mit RTX 5060 Ti 16GB

Tests auf einer RTX 5060 Ti 16GB mit 32 GB DDR4-RAM unter Verwendung von llama-server b8373 (46dba9fce) zeigen praktische Leistungsmerkmale für lokale LLM-Codierungs-Workflows. Das Setup nutzte llama.cpp mit spezifischen Starteinstellungen: Fast-Path mit fa=on, ngl=auto, threads=8 und KV-Einstellungen -ctk q8_0 -ctv q8_0.

Modell-Leistungsergebnisse

Der Benchmark verglich mehrere quantisierte Modelle mit diesen zentralen Erkenntnissen:

  • Bestes Standard-Codemodell: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • Beste Option für höheren Kontext beim Codieren: Dasselbe Unsloth 30B-Modell bei 96k Kontext
  • Beste schnelle 35B-Codierungsoption: Unsloth Qwen3.5-35B UD-Q2_K_XL

Leistungsmetriken

Token-Generierungsgeschwindigkeiten aus lokalen Tests:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 Tok/s
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 Tok/s
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 Tok/s
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76,3 Tok/s
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80,1 Tok/s

Plattformübergreifender Vergleich

Abgestimmte Tests mit 20 Fragen, 32k Kontext und max_tokens=800 zeigten:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79,5 Tok/s, Qualität 7,94 | Ubuntu: 76,3 Tok/s, Qualität 8,14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72,3 Tok/s, Qualität 7,40 | Ubuntu: 80,1 Tok/s, Qualität 7,39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19,9 Tok/s, Qualität 8,85 | Ubuntu: ~20,0 Tok/s, Qualität 8,21
Ad

Konfigurationshinweise

Der 30B-Coder-Pfad verwendete: jinja, reasoning-budget 0, reasoning-format none. Der 35B UD-Pfad verwendete: c=262144, n-cpu-moe=8. Für das 35B Q4_K_M Stable Tune waren die Einstellungen: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Bemerkenswerterweise benötigte das 35B Q4_K_M-Modell spezifische Abstimmungen, um stabil auf dieser Karte zu laufen, übertraf aber in der praktischen Anwendung den älteren UD-Q2_K_XL-Pfad dennoch nicht. Der Autor stellte fest, dass kleinere Modelle (9B-Route) und aufwändigere Experimente (35B Q4_K_M) trotz Erwartungen nicht die stärksten Wahlmöglichkeiten für den realen Einsatz waren.

Ubuntu-Leistungstests

Zusätzliche fokussierte Tests auf Ubuntu mit dem Jackrong 27B-Modell zeigten minimale Abweichungen:

  • -fa on, auto parallel: 19,95 Tok/s
  • -fa auto, auto parallel: 19,56 Tok/s
  • -fa on, --parallel 1: 19,26 Tok/s

Flash-Attention-Einstellungen und Parallelverarbeitungsparameter hatten einen vernachlässigbaren Einfluss auf die Leistung dieses speziellen Modells.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

OpenLobster: Selbst gehosteter KI-Agent in Go mit 30 MB RAM-Bedarf
Werkzeuge

OpenLobster: Selbst gehosteter KI-Agent in Go mit 30 MB RAM-Bedarf

OpenLobster ist ein selbst gehosteter KI-Assistent, der in Go geschrieben ist und als einzelne Binärdatei mit 30 MB RAM-Nutzung und 200 ms Kaltstart läuft. Er unterstützt mehrere LLM-Anbieter, darunter Ollama, OpenRouter und jeden OpenAI-kompatiblen Endpunkt, wobei der Speicher in einer Graphdatenbank gespeichert wird.

OpenClawRadar
Graphify: Eine Claude Code-Fähigkeit, die ein Wissensdiagramm Ihres Repos erstellte – 450.000 Downloads, 40.000 Sterne in 26 Tagen
Werkzeuge

Graphify: Eine Claude Code-Fähigkeit, die ein Wissensdiagramm Ihres Repos erstellte – 450.000 Downloads, 40.000 Sterne in 26 Tagen

Graphify ist eine Claude Code-Funktion, die jede Datei in Ihrem Repository liest, einen Wissensgraphen mit Leiden-Community-Erkennung erstellt und ihn mit 71x weniger Tokens abfragt als rohe Dateien. Über 450.000 PyPI-Downloads, ~40.000 GitHub-Sterne, Platz 2 weltweit in der ersten Woche.

OpenClawRadar
audio-analyzer-rs: Ein MCP-Server zur Audioanalyse mit Claude
Werkzeuge

audio-analyzer-rs: Ein MCP-Server zur Audioanalyse mit Claude

Ein Entwickler hat audio-analyzer-rs erstellt, einen MCP-Server in Rust, der Claude direkten Zugriff auf Audioanalyse ermöglicht, einschließlich Spektral-, Harmonik-, Rhythmus-, LUFS-Lautstärke- (EBU R128) und Dynamikbereichsmessungen. Das Tool ist token-effizient, wobei Claude mit niedriger Auflösung beginnt und bei Bedarf auf kleine Ausschnitte zoomt.

OpenClawRadar
ClaudeOrb: Chrome-Erweiterung überwacht Claude-API-Nutzung in Echtzeit
Werkzeuge

ClaudeOrb: Chrome-Erweiterung überwacht Claude-API-Nutzung in Echtzeit

Ein Entwickler hat ClaudeOrb erstellt, eine kostenlose Chrome-Erweiterung, die den Claude-Sitzungsprozentsatz, wöchentliche Limits, Countdown-Timer, Claude Code-Kosten und 7-Tage-Ausgabentrends anzeigt. Das Tool wurde mit Claude Code entwickelt, nachdem der Entwickler ohne Vorwarnung auf Ratenlimits gestoßen war.

OpenClawRadar