Qwen3-30B-A3B vs Qwen3.5-35B-A3B：RTX 5090 性能比較

性能比較: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

NVIDIA RTX 5090上でQwen3-30B-A3Bと新しくリリースされたQwen3.5-35B-A3Bを詳細に比較したベンチマークでは、速度とコンテキスト処理の間のトレードオフが明らかになりました。両モデルは同じ3Bのアクティブパラメータを持つMixture of Expertsアーキテクチャを使用しており、3.5バージョンは合計5Bの追加パラメータとビジョンプロジェクターを含んでいます。

ハードウェアとセットアップ

GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
サーバー: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
量子化: 両モデルでQ4_K_M
KVキャッシュ: Q8_0 (-ctk q8_0 -ctv q8_0)
コンテキスト: 32,768トークン (-c 32768)
パラメータ: -ngl 999 -np 4 --flash-attn on -t 12
モデルA: Qwen3-30B-A3B-Q4_K_M (ディスク上17 GB)
モデルB: Qwen3.5-35B-A3B-Q4_K_M (ディスク上21 GB)

両モデルは計測前に使い捨てのリクエストでウォームアップされました。サーバー側の計測は壁時計の測定ではなく、APIレスポンスから取得されました。

生の推論速度結果

直接的なllama.cpp /v1/chat/completionsテストでは以下の結果が示されました:

短いプロンプト (8-9トークン): 30B: 248.2 tok/s, 3.5: 169.5 tok/s
中程度のプロンプト (73-78トークン): 30B: 236.1 tok/s, 3.5: 163.5 tok/s
長文 (800トークン): 30B: 232.6 tok/s, 3.5: 116.3 tok/s
コード生成 (298-400トークン): 30B: 233.9 tok/s, 3.5: 161.6 tok/s
推論 (200トークン): 30B: 234.8 tok/s, 3.5: 158.2 tok/s

平均生成速度: 30B: 237.1 tok/s, 3.5: 153.8 tok/s (30Bは35%速い)

プロンプト処理の平均: 30B: 773.5 tokens/s, 3.5: 518.1 tokens/s

3.5モデルは長い出力 (800トークン) で興味深い後退を示し、116 tok/sに低下しましたが、短い出力では約160 tok/sを維持しました。プロンプト処理が3.5モデルで遅いのは、より大きな語彙 (248K vs 152Kトークン) によるものです。

メモリ使用量

VRAM使用量: 30Bはアイドル時27.3 GB、3.5はアイドル時29.0 GBを使用します。両モデルともRTX 5090上で快適に動作します。

応答品質の観察

温度=0.7でのテストでは、両モデルが有能な出力を生成することが示されました。主な観察点:

創造的ライティング: 両モデルとも堅実で、3.5はわずかに雰囲気のある散文を示しました
俳句生成: 両モデルとも有効な5-7-5構造を生成します
コーディングタスク: 両モデルともO(1)のget/put操作でLRUキャッシュを正しく実装します

3.5モデルは長いコンテキストの処理に著しく優れており、トークンスケーリングが平坦であるのに対し、30Bモデルは21%の性能低下を示します。品質の違いは最小限で、構造とフォーマットにおいて3.5がわずかに優れています。

📖 完全なソースを読む: r/LocalLLaMA

Qwen3-30B-A3B と Qwen3.5-35B-A3B の RTX 5090 での性能比較

性能比較: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

ハードウェアとセットアップ

生の推論速度結果

メモリ使用量

応答品質の観察

👀 See Also

Claude-Code v2.1.72：SSHの改善、許可プロンプトの削減、バグ修正

Claude Code v2.1.83では、管理設定フラグメント、トランスクリプト検索、およびセキュリティ改善が追加されました。

Claude Code 2.1.132：マルチエージェントドキュメント、スケジュールゲート、スキル制限の変更

OpenClaw 2026.4.2 および 2026.3.31 はローカルLLM接続を切断します