RTX 5060 Ti 16GB : Benchmarks des LLM locaux : Les modèles 30B restent en tête pour le codage

Résultats de performance des LLM locaux sur RTX 5060 Ti 16GB
Les tests effectués sur une RTX 5060 Ti 16GB avec 32GB de RAM DDR4 en utilisant llama-server b8373 (46dba9fce) révèlent les caractéristiques de performance pratiques pour les flux de travail de codage avec LLM locaux. La configuration utilisait llama.cpp avec des paramètres de lancement spécifiques : chemin rapide avec fa=on, ngl=auto, threads=8, et les paramètres KV -ctk q8_0 -ctv q8_0.
Résultats de performance des modèles
Le benchmark a comparé plusieurs modèles quantifiés avec ces conclusions clés :
- Meilleur modèle de codage par défaut : Unsloth Qwen3-Coder-30B UD-Q3_K_XL
- Meilleure option de codage à contexte étendu : Le même modèle Unsloth 30B avec un contexte de 96k
- Meilleure option de codage rapide 35B : Unsloth Qwen3.5-35B UD-Q2_K_XL
Métriques de performance
Vitesses de génération de tokens issues des tests locaux :
- Jackrong Qwen 3.5 4B Q5_K_M : 88 tok/s
- LuffyTheFox Qwen 3.5 9B Q4_K_M : 64 tok/s
- Jackrong Qwen 3.5 27B Q3_K_S : ~20 tok/s
- Unsloth Qwen 3.0 30B UD-Q3_K_XL : 76,3 tok/s
- Unsloth Qwen 3.5 35B UD-Q2_K_XL : 80,1 tok/s
Comparaison multiplateforme
Des tests comparables avec 20 questions, un contexte de 32k et max_tokens=800 ont montré :
- Unsloth Qwen3-Coder-30B UD-Q3_K_XL : Windows : 79,5 tok/s, qualité 7,94 | Ubuntu : 76,3 tok/s, qualité 8,14
- Unsloth Qwen3.5-35B UD-Q2_K_XL : Windows : 72,3 tok/s, qualité 7,40 | Ubuntu : 80,1 tok/s, qualité 7,39
- Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S : Windows : 19,9 tok/s, qualité 8,85 | Ubuntu : ~20,0 tok/s, qualité 8,21
Notes de configuration
Le chemin du codeur 30B utilisait : jinja, reasoning-budget 0, reasoning-format none. Le chemin UD 35B utilisait : c=262144, n-cpu-moe=8. Pour l'accord stable du 35B Q4_K_M, les paramètres étaient : -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.
Notamment, le modèle 35B Q4_K_M nécessitait un accord spécifique pour fonctionner de manière stable sur cette carte, mais il ne surpassait toujours pas l'ancien chemin UD-Q2_K_XL dans un usage pratique. L'auteur a constaté que les modèles plus petits (route 9B) et les expériences plus lourdes (35B Q4_K_M) n'étaient pas les choix les plus solides dans le monde réel, malgré les attentes.
Tests de performance sur Ubuntu
Des tests supplémentaires ciblés sur Ubuntu avec le modèle Jackrong 27B ont montré une variation minimale :
-fa on, parallélisme automatique : 19,95 tok/s-fa auto, parallélisme automatique : 19,56 tok/s-fa on,--parallel 1: 19,26 tok/s
Les paramètres d'attention flash et de traitement parallèle avaient un impact négligeable sur la performance de ce modèle particulier.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Patina : Une Compétence Claude Code qui Détecte et Réécrit les Modèles d'Écriture IA
Un développeur a créé une compétence Claude Code appelée patina qui identifie 112 motifs rendant le texte généré par IA évident dans quatre langues, puis réécrit les sections signalées. L'outil inclut des modes pour la détection uniquement, l'évaluation et la réécriture itérative.

Codev : Flux de travail de l'agent IA pour 106 PR en 14 jours
Codev est un système open-source qui coordonne plusieurs agents d'IA grâce à un flux de travail strict Spécification → Plan → Implémentation → Revue → PR, détectant 20 bogues avant la mise en production et produisant un code noté 1,2 point de mieux sur une échelle de 10 points.

Marmy : Une application mobile auto-hébergée pour gérer plusieurs sessions d'agents d'IA de codage
Marmy est un outil open-source et auto-hébergé, construit avec Claude Code, qui vous permet de gérer plusieurs sessions d'agents d'IA de codage depuis votre téléphone. Il comprend un agent Rust pour vos machines, une application iOS, une navigation de fichiers avec coloration syntaxique, des notifications push et une architecture manager-agent.

Microsoft VibeVoice : modèles ASR de 60 min et TTS de 90 min open-sourcés
VibeVoice est une famille de modèles de voix IA open-source de Microsoft incluant ASR (60 minutes en un seul passage, diarisation des locuteurs, plus de 50 langues) et TTS (90 minutes multi-locuteur, streaming en temps réel). Utilise des tokenizers de parole continus à 7,5 Hz et une diffusion de prochain token.