Qwen3.5-27B-FP8のパフォーマンスベンチマークをOpenClawエージェントで実施

✍️ OpenClawRadar📅 公開日: February 28, 2026🔗 Source
Qwen3.5-27B-FP8のパフォーマンスベンチマークをOpenClawエージェントで実施
Ad

コミュニティテストによるパフォーマンスベンチマーク

コミュニティテストは、48GB VRAMを搭載した単一の改造RTX 4090 GPUを使用して実施されました。公式のQwen3.5-35B-A3B-FP8およびQwen3.5-27B-FP8モデルが256Kのコンテキスト長でテストされました。

フレームワーク推奨事項

SGLangが推奨されます。これはプレフィックスキャッシュを完全にサポートする唯一のフレームワークであり、Qwen3.5のハイブリッドアテンションアーキテクチャに不可欠です。

  • 100Kコンテキストの場合:コールドスタートのプリフィルは約10秒かかります
  • キャッシュ使用時:プリフィルは200msに短縮されます
  • 結果:非常に低い初回トークン遅延と極めて高速な出力

モデルのパフォーマンス指標

  • Qwen3.5-35B-A3B-FP8: 120トークン/秒で開始し、80トークン/秒まで低下しました
  • Qwen3.5-27B-FP8: 20トークン/秒で開始し、わずかに18トークン/秒まで低下しました

OpenClawエージェントのスケーリング

OpenClawは6つのエージェントを同時に実行できるチームを構成でき、速度は120トークン/秒までスケールアップします。テスターはこのスケーリング動作に驚きを表明しました。

この構成での欠点として、シングルスレッドのパフォーマンスが遅いことが挙げられています。

MTP最適化に関する注意点

27B-FP8モデルでMTP(マルチトークン予測)を有効にすると、単一リクエストの生成速度を大幅に向上させることができます:

  • 単一のNVIDIA H100上:20Kコンテキストウィンドウで100トークン/秒を維持
  • 64Kトークンのプリフィル速度:1秒未満

重要な注意点:MTPはプレフィックスキャッシュと競合し、VRAM使用量が非常に大きくなります。RTX 4090ユーザーは、低いnum-steps設定から始めることをお勧めします。

📖 完全なソースを読む: r/openclaw

Ad

👀 See Also

Claude Proユーザー文書、インターフェースとワークフローの慢性的な問題
News

Claude Proユーザー文書、インターフェースとワークフローの慢性的な問題

長期間のClaude Pro契約者が、修正時のファイル破壊、バージョン管理の欠如、コンテキスト圧縮後の記憶喪失、一貫性のない意思決定、無視されるユーザー設定という5つの持続的な問題を詳細に説明しています。ユーザーは、Claudeの設定セクションでの明示的な指示にもかかわらず、これらの問題が発生すると報告しています。

OpenClawRadar
クロードに理由を教える:アンソロピックのエージェント的ミスアラインメント排除への取り組み
News

クロードに理由を教える:アンソロピックのエージェント的ミスアラインメント排除への取り組み

Anthropicは、Claudeモデルにおいて、単なるデモンストレーションではなく理由と原則に基づく訓練を行うことで、エージェント的なミスアライメント(例えば恐喝)を大幅に削減し、Claude Haiku 4.5以降は完全なスコアを達成しました。

OpenClawRadar
9つの一般的なAIコーディングエージェントの失敗パターンと実行前検証
News

9つの一般的なAIコーディングエージェントの失敗パターンと実行前検証

Redditの投稿では、不完全な列挙型の処理、サイレントなnullパス、幻覚的なインポートなど、AIコーディングエージェントが失敗する一般的な9つの失敗パターンが特定されています。著者は、実行前に検証パスを実装することで、これらの失敗の約70%を捕捉できると報告しています。

OpenClawRadar
中国AI工程师成为硅谷新势力
News

中国AI工程师成为硅谷新势力

ロスアルトスのシェアハウスに潜入したジャーナリストが、シリコンバレーにおける中国人AI研究者コミュニティを探求。2億ドルの報酬パッケージ、彼らの驚異的な勤勉さ、そしてネットワーキングの場となるハウスパーティーについて描写する。

OpenClawRadar