RTX 5060 Ti 16GB ローカルLLMベンチマーク：30Bモデルがリード

RTX 5060 Ti 16GBでのローカルLLM性能調査結果

RTX 5060 Ti 16GBと32GB DDR4 RAMを使用し、llama-server b8373 (46dba9fce)でテストを行った結果、ローカルLLMコーディングワークフローにおける実用的な性能特性が明らかになりました。セットアップではllama.cppを特定の起動設定で使用しました：高速パスにfa=on、ngl=auto、threads=8、そしてKV設定-ctk q8_0 -ctv q8_0です。

モデル性能結果

ベンチマークでは複数の量子化モデルを比較し、以下の重要な発見がありました：

最適なデフォルトコーディングモデル： Unsloth Qwen3-Coder-30B UD-Q3_K_XL
最適な高コンテキストコーディングオプション： 同じUnsloth 30Bモデルを96kコンテキストで
最適な高速35Bコーディングオプション： Unsloth Qwen3.5-35B UD-Q2_K_XL

性能指標

ローカルテストでのトークン生成速度：

Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

クロスプラットフォーム比較

20の質問、32kコンテキスト、max_tokens=800で一致したテスト結果：

Unsloth Qwen3-Coder-30B UD-Q3_K_XL： Windows: 79.5 tok/s、品質 7.94 | Ubuntu: 76.3 tok/s、品質 8.14
Unsloth Qwen3.5-35B UD-Q2_K_XL： Windows: 72.3 tok/s、品質 7.40 | Ubuntu: 80.1 tok/s、品質 7.39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S： Windows: 19.9 tok/s、品質 8.85 | Ubuntu: ~20.0 tok/s、品質 8.21

設定に関する注意点

30Bコーダーパスでは以下を使用：jinja、reasoning-budget 0、reasoning-format none。35B UDパスでは：c=262144、n-cpu-moe=8。35B Q4_K_M安定チューニングでは、設定は：-ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512Mでした。

特に、35B Q4_K_Mモデルはこのカードで安定して動作させるために特定のチューニングが必要でしたが、実用的な使用では古いUD-Q2_K_XLパスを上回る性能は示しませんでした。著者は、小さいモデル（9Bルート）や重い実験（35B Q4_K_M）は、期待に反して現実世界での最強の選択肢ではないと結論づけています。