RTX 5060 Ti 16GB ローカルLLMベンチマーク:コーディングでは30Bモデルが依然としてリード

✍️ OpenClawRadar📅 公開日: April 19, 2026🔗 Source
RTX 5060 Ti 16GB ローカルLLMベンチマーク:コーディングでは30Bモデルが依然としてリード
Ad

RTX 5060 Ti 16GBでのローカルLLM性能調査結果

RTX 5060 Ti 16GBと32GB DDR4 RAMを使用し、llama-server b8373 (46dba9fce)でテストを行った結果、ローカルLLMコーディングワークフローにおける実用的な性能特性が明らかになりました。セットアップではllama.cppを特定の起動設定で使用しました:高速パスにfa=onngl=autothreads=8、そしてKV設定-ctk q8_0 -ctv q8_0です。

モデル性能結果

ベンチマークでは複数の量子化モデルを比較し、以下の重要な発見がありました:

  • 最適なデフォルトコーディングモデル: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • 最適な高コンテキストコーディングオプション: 同じUnsloth 30Bモデルを96kコンテキストで
  • 最適な高速35Bコーディングオプション: Unsloth Qwen3.5-35B UD-Q2_K_XL

性能指標

ローカルテストでのトークン生成速度:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

クロスプラットフォーム比較

20の質問、32kコンテキスト、max_tokens=800で一致したテスト結果:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s、品質 7.94 | Ubuntu: 76.3 tok/s、品質 8.14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s、品質 7.40 | Ubuntu: 80.1 tok/s、品質 7.39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s、品質 8.85 | Ubuntu: ~20.0 tok/s、品質 8.21
Ad

設定に関する注意点

30Bコーダーパスでは以下を使用:jinjareasoning-budget 0reasoning-format none。35B UDパスでは:c=262144n-cpu-moe=8。35B Q4_K_M安定チューニングでは、設定は:-ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512Mでした。

特に、35B Q4_K_Mモデルはこのカードで安定して動作させるために特定のチューニングが必要でしたが、実用的な使用では古いUD-Q2_K_XLパスを上回る性能は示しませんでした。著者は、小さいモデル(9Bルート)や重い実験(35B Q4_K_M)は、期待に反して現実世界での最強の選択肢ではないと結論づけています。

Ubuntu性能テスト

Jackrong 27Bモデルに焦点を当てたUbuntuでの追加テストでは、最小限の変動しか見られませんでした:

  • -fa on、自動並列処理:19.95 tok/s
  • -fa auto、自動並列処理:19.56 tok/s
  • -fa on--parallel 1:19.26 tok/s

フラッシュアテンション設定と並列処理パラメータは、この特定のモデルの性能にほとんど影響を与えませんでした。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claudeコード計画モードにより、再作業率が40%からほぼゼロに減少しました。
Tools

Claudeコード計画モードにより、再作業率が40%からほぼゼロに減少しました。

ある開発者が30以上のコーディングセッションをClaude Codeで追跡した結果、プランモードをスキップすると40%の確率でタスクを一からやり直すことになった。プランモードを使用すると、やり直し率はほぼゼロに低下し、ある機能の実装には計画なしでは35分以上かかったのに対し、計画ありでは合計17分で完了した。

OpenClawRadar
cq: AIコーディングエージェント向けローカルファースト知識共有システム
Tools

cq: AIコーディングエージェント向けローカルファースト知識共有システム

Mozilla.aiのcqは、ローカルのSQLiteストアを介してAIコーディングエージェントが一般的な落とし穴に関する「知識ユニット」を共有できるオープンソースツールで、Docker APIを通じたチーム共有も可能です。Claude CodeプラグインまたはOpenCode MCPサーバーとしてインストールできます。

OpenClawRadar
ワールド:進化するニューラルネットワークによるオープンエンド人工生命シミュレーション
Tools

ワールド:進化するニューラルネットワークによるオープンエンド人工生命シミュレーション

Werldは、NEATニューラルネットワークを持つエージェントが、ハードコードされたルールや報酬関数なしに、自身の神経構造、感覚処理、および行動を進化させるリアルタイム人工生命シミュレーションです。シミュレーションは、64の感覚チャネル、7つの連続運動機能、および29の遺伝性ゲノム特性を持つWatts-Strogatzスモールワールドグラフ上で30体のエージェントから始まります。

OpenClawRadar
Tendr Skillは、トークン使用量を削減するために階層構造を持つCLIベースの長期記憶機能を追加します。
Tools

Tendr Skillは、トークン使用量を削減するために階層構造を持つCLIベースの長期記憶機能を追加します。

新しいOpenClawスキルは、長期的なメモリ操作において推論と実行を分離し、CLIツールを使用して構造的変更を確定的に処理します。ウィキリンクとファイル間の明示的な意味階層をサポートし、トークン消費を削減し、エラーの蓄積を防ぎます。

OpenClawRadar