Qwen3.5 on RTX 4090: 2K to 400K Context Benchmarks

RTX 4090でのQwen3.5性能テスト

開発者がRTX 4090 GPUで実行したQwen3.5モデルのベンチマーク結果を共有し、2,048から400,000トークンまでのコンテキストウィンドウをテストしました。テストは当初262kコンテキストを計画していましたが、yarnやその他の方法を使用して400kまで拡張されました。

テストされたモデル

以下のQwen3.5モデルバリアントがベンチマークされました：

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

テストされたコンテキストウィンドウ

モデルは以下の特定のコンテキスト長で評価されました：2048、4096、8192、32768、65536、98304、131072、196608、262144、327680、360448、393216、および400000トークン。

テスト方法論

ベンチマークスクリプトは、8ビットおよび4ビットKVキャッシュを使用したNGL設定で可能な限り最高のトークン/秒速度を達成するように構成されました。開発者は、初回トークンまでの時間（TTFT）が最初は長く見えるものの、Warm TTFT Avg (s)列はKVキャッシュがロードされた後のより良い性能を示していると指摘しました。コンテキストは意図的に最初のインタラクションで完全にロードされました。

コンテキスト能力をテストするため、モデルにはログを要約する1文のプロンプトが与えられ、その後2kから400kトークンのログデータが続けられました。開発者はいくつかの不一致を報告しましたが、全体的には満足のいく性能でした。