Qwen3.6 27B FP8、RTX 5000 PRO 48GB上で200kトークンBF16 KVキャッシュを80 TPSで実行

r/LocalLLaMAのRedditユーザーが、1枚のRTX 5000 PRO 48GB GPU上でQwen3.6-27B-FP8をBF16 KVキャッシュ200kトークンで実行し、60~90 TPSを達成したと報告。このセットアップはvLLM 0.20.1、CUDA 12.9、Qwen公式のFP8量子化を使用し、マルチモダリティとMTP投機的復号を維持しています。
セットアップの詳細
環境はFlashInfer FP8 MoE、FP8 Marlin、非同期スケジューリングを採用。主要な環境変数と起動コマンド:
export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True
vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching
パフォーマンスの観測
MTP=2の投機的復号により、コード生成中に60~90 TPSを達成。BF16 KVキャッシュは量子化KVで見られる圧縮問題を回避し、長いコーディングセッションの信頼性を向上。ユーザーは、このセットアップが1枚のRTX 5000 PRO 48GB、64GBのシステムRAM、適切なCPUで動作し、ローカルLLM開発向けの$10kワークステーションの有力な候補であると述べています。
対象ユーザー
量子化アーティファクトを最小限に抑え、長いコンテキストウィンドウを必要とする、ローカルで低圧縮のエージェント型コーディング環境を求める開発者向け。
📖 ソース全文: r/LocalLLaMA
👀 See Also

ローカルQwen 3.6対フロンティアモデル:コーディングプリミティブにおけるシングルファイルHTML Canvas駆動アニメーション
Redditユーザーが、ローカルのQwen 3.6量子化モデルとフロンティアモデル(Claude、Gemini、GPT、Kimi)を、単一ファイルのHTMLキャンバスを使った運転アニメーション生成タスクで比較した。ローカルのQwen 3.6-27B Q4_K_Mは、一部のフロンティアモデルの出力よりも自然な動きとレイヤリングを実現した。

SWE-rebenchリーダーボード更新:2026年2月の結果は接戦を明らかに
SWE-rebenchリーダーボードが2026年2月の結果で更新され、57の新規GitHub PRタスクがテストされました。Claude Opus 4.6が65.3%の解決率でトップを維持していますが、上位6モデルは5パーセントポイント以内に収まっています。

Anthropic、ClaudeコネクタからGmailメッセージ本文のアクセスを削除
AnthropicはGmailコネクタからgmail_read_messageとgmail_search_messagesツールを削除し、メッセージ本文や添付ファイルの内容を返さないget_threadとsearch_threadsに置き換えました。

Claude Code v2.1.90は、ゲーム化された機能発見を備えた/powerupコマンドを追加しました。
Claude Code v2.1.90では、/powerupスラッシュコマンドが導入され、10個の解除可能なパワーアップを通じてゲーム化されたオンボーディングを提供します。各パワーアップは、多くのユーザーが見逃している機能を一つずつ教える仕組みです。このシステムには、ターミナル内でのアニメーションデモやスクリーンショット付きの詳細なドキュメントが含まれています。