RTX 4090におけるQwen3.5モデルの2Kから400Kコンテキストのベンチマーク結果

✍️ OpenClawRadar📅 公開日: March 7, 2026🔗 Source
RTX 4090におけるQwen3.5モデルの2Kから400Kコンテキストのベンチマーク結果
Ad

RTX 4090でのQwen3.5性能テスト

開発者がRTX 4090 GPUで実行したQwen3.5モデルのベンチマーク結果を共有し、2,048から400,000トークンまでのコンテキストウィンドウをテストしました。テストは当初262kコンテキストを計画していましたが、yarnやその他の方法を使用して400kまで拡張されました。

テストされたモデル

以下のQwen3.5モデルバリアントがベンチマークされました:

  • Qwen3.5-0.8B-Q4_K_M
  • Qwen3.5-0.8B-bf16
  • Qwen3.5-2B-Q4_K_M
  • Qwen3.5-2B-bf16
  • Qwen3.5-4B-Q4_K_M
  • Qwen3.5-4B-bf16
  • Qwen3.5-9B-Q4_K_M
  • Qwen3.5-9B-bf16
  • Qwen3.5-27B-Q4_K_M
  • Qwen3.5-35B-A3B-Q4_K_M

テストされたコンテキストウィンドウ

モデルは以下の特定のコンテキスト長で評価されました:2048、4096、8192、32768、65536、98304、131072、196608、262144、327680、360448、393216、および400000トークン。

Ad

テスト方法論

ベンチマークスクリプトは、8ビットおよび4ビットKVキャッシュを使用したNGL設定で可能な限り最高のトークン/秒速度を達成するように構成されました。開発者は、初回トークンまでの時間(TTFT)が最初は長く見えるものの、Warm TTFT Avg (s)列はKVキャッシュがロードされた後のより良い性能を示していると指摘しました。コンテキストは意図的に最初のインタラクションで完全にロードされました。

コンテキスト能力をテストするため、モデルにはログを要約する1文のプロンプトが与えられ、その後2kから400kトークンのログデータが続けられました。開発者はいくつかの不一致を報告しましたが、全体的には満足のいく性能でした。

現在の状況と次のステップ

3つのモデルがテスト中に失敗し、KVオフロードテストが進行中です:Qwen3.5-4B-bf16、Qwen3.5-27B-Q4_K_M、およびQwen3.5-35B-A3B-Q4_K_M。開発者はスクリプトの問題で24時間の実行時間が無駄になった後、これらのテストを再開する必要がありました。

VRAMオフロードテストが完了したら、開発者は結果を基盤モデルと比較する計画を立てており、分析のために出力を保存しています。開発者は特に9Bおよび27Bの高密度モデルの性能に驚きを表明しました。

開発者は、どのモデルと比較すべきか、および評価のための評価方法論についてコミュニティからの意見を求めています。

📖 完全なソースを読む: r/openclaw

Ad

👀 See Also

OpenAI、GPT-5.3-Codex-Sparkをリサーチプレビューで公開
News

OpenAI、GPT-5.3-Codex-Sparkをリサーチプレビューで公開

OpenAIはGPT-5.3-Codex-Sparkを研究プレビューとして発表し、より高速な開発能力を約束しています。

OpenClawRadar
🦀
News

FairyFuse、三元重み乗算なし推論によりCPU上で29.6倍のカーネル高速化を達成

FairyFuseは、マスク付き加算/減算を用いて8つの実数値サブGEMVを単一のAVX-512ループに融合し、Xeon 8558P上で32.4トークン/秒、llama.cpp Q4_K_M比1.24倍の高速化をほぼロスレス品質で実現します。

OpenClawRadar
AI面接プラットフォームの検証:採用選考におけるCodeSignal、Humanly、Eightfoldの活用
News

AI面接プラットフォームの検証:採用選考におけるCodeSignal、Humanly、Eightfoldの活用

The Vergeは、CodeSignal、Humanly、Eightfoldを含む3つのAI面接プラットフォームを採用選考用にテストしました。AIアバターは一対一のビデオ面接を行い、回答を分析し、偏見を減らすと主張していますが、トレーニングデータの制限により、偏見のないシステムは依然として不可能です。

OpenClawRadar
YC-BenchがLLMをスタートアップCEOとして評価、GLM-5は高いコスト効率を発揮
News

YC-BenchがLLMをスタートアップCEOとして評価、GLM-5は高いコスト効率を発揮

研究者たちはYC-Benchというベンチマークを作成しました。これは、LLMがシミュレートされたスタートアップのCEO役を1年間務め、従業員、契約、給与を管理するものです。GLM-5は1回の実行あたり7.62ドルで平均最終資金121万ドルを達成し、1回あたり86ドルかかるClaude Opus 4.6の5%以内の性能を示しました。

OpenClawRadar