Qwen3.5-27B-FP8のパフォーマンスベンチマークをOpenClawエージェントで実施

コミュニティテストによるパフォーマンスベンチマーク
コミュニティテストは、48GB VRAMを搭載した単一の改造RTX 4090 GPUを使用して実施されました。公式のQwen3.5-35B-A3B-FP8およびQwen3.5-27B-FP8モデルが256Kのコンテキスト長でテストされました。
フレームワーク推奨事項
SGLangが推奨されます。これはプレフィックスキャッシュを完全にサポートする唯一のフレームワークであり、Qwen3.5のハイブリッドアテンションアーキテクチャに不可欠です。
- 100Kコンテキストの場合:コールドスタートのプリフィルは約10秒かかります
- キャッシュ使用時:プリフィルは200msに短縮されます
- 結果:非常に低い初回トークン遅延と極めて高速な出力
モデルのパフォーマンス指標
- Qwen3.5-35B-A3B-FP8: 120トークン/秒で開始し、80トークン/秒まで低下しました
- Qwen3.5-27B-FP8: 20トークン/秒で開始し、わずかに18トークン/秒まで低下しました
OpenClawエージェントのスケーリング
OpenClawは6つのエージェントを同時に実行できるチームを構成でき、速度は120トークン/秒までスケールアップします。テスターはこのスケーリング動作に驚きを表明しました。
この構成での欠点として、シングルスレッドのパフォーマンスが遅いことが挙げられています。
MTP最適化に関する注意点
27B-FP8モデルでMTP(マルチトークン予測)を有効にすると、単一リクエストの生成速度を大幅に向上させることができます:
- 単一のNVIDIA H100上:20Kコンテキストウィンドウで100トークン/秒を維持
- 64Kトークンのプリフィル速度:1秒未満
重要な注意点:MTPはプレフィックスキャッシュと競合し、VRAM使用量が非常に大きくなります。RTX 4090ユーザーは、低いnum-steps設定から始めることをお勧めします。
📖 完全なソースを読む: r/openclaw
👀 See Also

Claude Proユーザー文書、インターフェースとワークフローの慢性的な問題
長期間のClaude Pro契約者が、修正時のファイル破壊、バージョン管理の欠如、コンテキスト圧縮後の記憶喪失、一貫性のない意思決定、無視されるユーザー設定という5つの持続的な問題を詳細に説明しています。ユーザーは、Claudeの設定セクションでの明示的な指示にもかかわらず、これらの問題が発生すると報告しています。

クロードに理由を教える:アンソロピックのエージェント的ミスアラインメント排除への取り組み
Anthropicは、Claudeモデルにおいて、単なるデモンストレーションではなく理由と原則に基づく訓練を行うことで、エージェント的なミスアライメント(例えば恐喝)を大幅に削減し、Claude Haiku 4.5以降は完全なスコアを達成しました。

9つの一般的なAIコーディングエージェントの失敗パターンと実行前検証
Redditの投稿では、不完全な列挙型の処理、サイレントなnullパス、幻覚的なインポートなど、AIコーディングエージェントが失敗する一般的な9つの失敗パターンが特定されています。著者は、実行前に検証パスを実装することで、これらの失敗の約70%を捕捉できると報告しています。

中国AI工程师成为硅谷新势力
ロスアルトスのシェアハウスに潜入したジャーナリストが、シリコンバレーにおける中国人AI研究者コミュニティを探求。2億ドルの報酬パッケージ、彼らの驚異的な勤勉さ、そしてネットワーキングの場となるハウスパーティーについて描写する。