Qwen3-30B-A3B と Qwen3.5-35B-A3B の RTX 5090 での性能比較

✍️ OpenClawRadar📅 公開日: February 25, 2026🔗 Source
Qwen3-30B-A3B と Qwen3.5-35B-A3B の RTX 5090 での性能比較
Ad

性能比較: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

NVIDIA RTX 5090上でQwen3-30B-A3Bと新しくリリースされたQwen3.5-35B-A3Bを詳細に比較したベンチマークでは、速度とコンテキスト処理の間のトレードオフが明らかになりました。両モデルは同じ3Bのアクティブパラメータを持つMixture of Expertsアーキテクチャを使用しており、3.5バージョンは合計5Bの追加パラメータとビジョンプロジェクターを含んでいます。

ハードウェアとセットアップ

  • GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
  • サーバー: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
  • 量子化: 両モデルでQ4_K_M
  • KVキャッシュ: Q8_0 (-ctk q8_0 -ctv q8_0)
  • コンテキスト: 32,768トークン (-c 32768)
  • パラメータ: -ngl 999 -np 4 --flash-attn on -t 12
  • モデルA: Qwen3-30B-A3B-Q4_K_M (ディスク上17 GB)
  • モデルB: Qwen3.5-35B-A3B-Q4_K_M (ディスク上21 GB)

両モデルは計測前に使い捨てのリクエストでウォームアップされました。サーバー側の計測は壁時計の測定ではなく、APIレスポンスから取得されました。

Ad

生の推論速度結果

直接的なllama.cpp /v1/chat/completionsテストでは以下の結果が示されました:

  • 短いプロンプト (8-9トークン): 30B: 248.2 tok/s, 3.5: 169.5 tok/s
  • 中程度のプロンプト (73-78トークン): 30B: 236.1 tok/s, 3.5: 163.5 tok/s
  • 長文 (800トークン): 30B: 232.6 tok/s, 3.5: 116.3 tok/s
  • コード生成 (298-400トークン): 30B: 233.9 tok/s, 3.5: 161.6 tok/s
  • 推論 (200トークン): 30B: 234.8 tok/s, 3.5: 158.2 tok/s

平均生成速度: 30B: 237.1 tok/s, 3.5: 153.8 tok/s (30Bは35%速い)

プロンプト処理の平均: 30B: 773.5 tokens/s, 3.5: 518.1 tokens/s

3.5モデルは長い出力 (800トークン) で興味深い後退を示し、116 tok/sに低下しましたが、短い出力では約160 tok/sを維持しました。プロンプト処理が3.5モデルで遅いのは、より大きな語彙 (248K vs 152Kトークン) によるものです。

メモリ使用量

VRAM使用量: 30Bはアイドル時27.3 GB、3.5はアイドル時29.0 GBを使用します。両モデルともRTX 5090上で快適に動作します。

応答品質の観察

温度=0.7でのテストでは、両モデルが有能な出力を生成することが示されました。主な観察点:

  • 創造的ライティング: 両モデルとも堅実で、3.5はわずかに雰囲気のある散文を示しました
  • 俳句生成: 両モデルとも有効な5-7-5構造を生成します
  • コーディングタスク: 両モデルともO(1)のget/put操作でLRUキャッシュを正しく実装します

3.5モデルは長いコンテキストの処理に著しく優れており、トークンスケーリングが平坦であるのに対し、30Bモデルは21%の性能低下を示します。品質の違いは最小限で、構造とフォーマットにおいて3.5がわずかに優れています。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.72:SSHの改善、許可プロンプトの削減、バグ修正
News

Claude-Code v2.1.72:SSHの改善、許可プロンプトの削減、バグ修正

Claude-Code v2.1.72は、SSHセッションと権限管理に特に焦点を当て、実用的なワークフローの改善とバグ修正を行いました。

OpenClawRadar
Claude Code v2.1.83では、管理設定フラグメント、トランスクリプト検索、およびセキュリティ改善が追加されました。
News

Claude Code v2.1.83では、管理設定フラグメント、トランスクリプト検索、およびセキュリティ改善が追加されました。

Claude Code v2.1.83では、チームポリシーフラグメント用のmanaged-settings.d/ディレクトリ、/とn/Nナビゲーションによるトランスクリプト検索、サブプロセス環境から認証情報を除去するCLAUDE_CODE_SUBPROCESS_ENV_SCRUB=1が導入されました。また、CwdChanged/FileChangedフック、sandbox.failIfUnavailable設定、macOSでの終了ハング、UIフリーズ、メモリリークの修正も含まれています。

OpenClawRadar
Claude Code 2.1.132:マルチエージェントドキュメント、スケジュールゲート、スキル制限の変更
News

Claude Code 2.1.132:マルチエージェントドキュメント、スケジュールゲート、スキル制限の変更

リリースv2.1.132では、マルチエージェントセッション、成果、ウェブフックに関するManaged Agentsのドキュメントが追加され、プロアクティブな/スケジュール提案に対してデフォルト拒否ゲートが導入され、エージェントあたりの文書化されたスキル上限が64から20に引き下げられました。

OpenClawRadar
OpenClaw 2026.4.2 および 2026.3.31 はローカルLLM接続を切断します
News

OpenClaw 2026.4.2 および 2026.3.31 はローカルLLM接続を切断します

OpenClawバージョン2026.4.2および2026.3.31は、ローカルでホストされているOllamaインスタンスへの接続タイムアウトを引き起こしています。この問題は、ローカルで実行されているUbuntuマシンに接続する際に発生し、エラーログにはLLMリクエストのタイムアウトとフェイルオーバーの決定が表示されます。

OpenClawRadar