Benchmarks LLM RTX 5060 Ti 16GB : 30B mène pour le codage

Résultats de performance des LLM locaux sur RTX 5060 Ti 16GB

Les tests effectués sur une RTX 5060 Ti 16GB avec 32GB de RAM DDR4 en utilisant llama-server b8373 (46dba9fce) révèlent les caractéristiques de performance pratiques pour les flux de travail de codage avec LLM locaux. La configuration utilisait llama.cpp avec des paramètres de lancement spécifiques : chemin rapide avec fa=on, ngl=auto, threads=8, et les paramètres KV -ctk q8_0 -ctv q8_0.

Résultats de performance des modèles

Le benchmark a comparé plusieurs modèles quantifiés avec ces conclusions clés :

Meilleur modèle de codage par défaut : Unsloth Qwen3-Coder-30B UD-Q3_K_XL
Meilleure option de codage à contexte étendu : Le même modèle Unsloth 30B avec un contexte de 96k
Meilleure option de codage rapide 35B : Unsloth Qwen3.5-35B UD-Q2_K_XL

Métriques de performance

Vitesses de génération de tokens issues des tests locaux :

Jackrong Qwen 3.5 4B Q5_K_M : 88 tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M : 64 tok/s
Jackrong Qwen 3.5 27B Q3_K_S : ~20 tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL : 76,3 tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL : 80,1 tok/s

Comparaison multiplateforme

Des tests comparables avec 20 questions, un contexte de 32k et max_tokens=800 ont montré :

Unsloth Qwen3-Coder-30B UD-Q3_K_XL : Windows : 79,5 tok/s, qualité 7,94 | Ubuntu : 76,3 tok/s, qualité 8,14
Unsloth Qwen3.5-35B UD-Q2_K_XL : Windows : 72,3 tok/s, qualité 7,40 | Ubuntu : 80,1 tok/s, qualité 7,39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S : Windows : 19,9 tok/s, qualité 8,85 | Ubuntu : ~20,0 tok/s, qualité 8,21

Notes de configuration

Le chemin du codeur 30B utilisait : jinja, reasoning-budget 0, reasoning-format none. Le chemin UD 35B utilisait : c=262144, n-cpu-moe=8. Pour l'accord stable du 35B Q4_K_M, les paramètres étaient : -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Notamment, le modèle 35B Q4_K_M nécessitait un accord spécifique pour fonctionner de manière stable sur cette carte, mais il ne surpassait toujours pas l'ancien chemin UD-Q2_K_XL dans un usage pratique. L'auteur a constaté que les modèles plus petits (route 9B) et les expériences plus lourdes (35B Q4_K_M) n'étaient pas les choix les plus solides dans le monde réel, malgré les attentes.

Tests de performance sur Ubuntu

Des tests supplémentaires ciblés sur Ubuntu avec le modèle Jackrong 27B ont montré une variation minimale :

-fa on, parallélisme automatique : 19,95 tok/s
-fa auto, parallélisme automatique : 19,56 tok/s
-fa on, --parallel 1 : 19,26 tok/s

Les paramètres d'attention flash et de traitement parallèle avaient un impact négligeable sur la performance de ce modèle particulier.

📖 Lire la source complète : r/LocalLLaMA

RTX 5060 Ti 16GB : Benchmarks des LLM locaux : Les modèles 30B restent en tête pour le codage

Résultats de performance des LLM locaux sur RTX 5060 Ti 16GB

Résultats de performance des modèles

Métriques de performance

Comparaison multiplateforme

Notes de configuration

Tests de performance sur Ubuntu

👀 See Also

Faire avancer les choses : Système de méta-prompting pour les agents d'IA de codage

Construction et test d'un serveur MCP dans Claude Desktop : Architecture et enseignements

Application de Débat Multi-Agents Construite avec Claude, ElevenLabs et Flux

Mise en place de contrôles IA avec Continue pour les revues de PR sous contrôle de source