Qwen3.5-27B-FP8 ベンチマーク：OpenClawエージェント6並列で120トークン/秒

コミュニティテストによるパフォーマンスベンチマーク

コミュニティテストは、48GB VRAMを搭載した単一の改造RTX 4090 GPUを使用して実施されました。公式のQwen3.5-35B-A3B-FP8およびQwen3.5-27B-FP8モデルが256Kのコンテキスト長でテストされました。

SGLangが推奨されます。これはプレフィックスキャッシュを完全にサポートする唯一のフレームワークであり、Qwen3.5のハイブリッドアテンションアーキテクチャに不可欠です。

OpenClawは6つのエージェントを同時に実行できるチームを構成でき、速度は120トークン/秒までスケールアップします。テスターはこのスケーリング動作に驚きを表明しました。

この構成での欠点として、シングルスレッドのパフォーマンスが遅いことが挙げられています。

27B-FP8モデルでMTP（マルチトークン予測）を有効にすると、単一リクエストの生成速度を大幅に向上させることができます：

重要な注意点：MTPはプレフィックスキャッシュと競合し、VRAM使用量が非常に大きくなります。RTX 4090ユーザーは、低いnum-steps設定から始めることをお勧めします。

📖 完全なソースを読む： r/openclaw