Qwen 3.6 27B auf AMD MI50s: 52,8 tps TG mit voller Genauigkeit

Ein Reddit-Benutzer hat Benchmark-Ergebnisse für den Betrieb von Qwen3.6-27B (volle Präzision, keine Quantisierung) auf acht AMD MI50s (GPUs von 2018) mit einem benutzerdefinierten vllm-Fork veröffentlicht. Das System erreicht 52,8 Token pro Sekunde (tps) für die Textgenerierung und 1569 tps für die Prompt-Verarbeitung mit TP8, keinem MTP und keinen Flash-Attention-Optimierungen, die große Prompts verlangsamen könnten.

Wichtige Details

Hardware: 8x AMD MI50s, PCIe (noch ohne PCIe-Switch)
Engine: vllm-Fork v0.20.1 mit ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
Modell: Qwen/Qwen3.6-27B (HuggingFace volle Präzision FP16)
Quantisierung: Keine – volle FP16-Präzision
MTP: Deaktiviert (langsamer bei großen Prompts)
Flash Attention: Nicht verwendet (Triton-basierte AMD Flash Attention ist bei großen Prompts ebenfalls langsamer)
Prompt: Einzelne Inferenz mit 1K- und 15K-Token-Prompts (Benchmark verwendete 10K Input, 1K Output)

Benchmark-Ergebnisse

Successful requests: 4
Total input tokens: 40000
Total generated tokens: 4000
Output token throughput (tok/s): 32.91
Peak output token throughput (tok/s): 56.00
Total token throughput (tok/s): 362.03
Mean TTFT (ms): 32874.56
Mean TPOT (ms): 88.66
Mean ITL (ms): 88.66

Hinweis: Der Benutzer berichtet 52,8 tps TG für eine einzelne Inferenz mit einem 15K-Prompt; der Benchmark zeigt aggregierte Ergebnisse über 4 Anfragen mit je 10K Input. Mit TP2 passt das Modell ebenfalls und läuft mit ~34 tps TG.

Einrichtungskommandos (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Für wen es geeignet ist

Entwickler, die agentische Codierungswerkzeuge (z. B. Claude Code, Hermes) auf AMD-Hardware betreiben, insbesondere mit großen Prompts und Anforderungen an volle Präzision.

Der Benutzer merkt an, dass weitere Verbesserungen durch PCIe-Switches (geringere Latenz), optimiertere Flash Attention/MTP für ROCm/gfx906 und aktualisierte Software-Stacks möglich sind.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Qwen 3.6 27B bei 52,8 tps TG auf AMD MI50s: Volle Genauigkeit, kein MTP, keine Quantisierung

Wichtige Details

Benchmark-Ergebnisse

Einrichtungskommandos (Docker + vllm serve)

Für wen es geeignet ist

👀 Siehe auch

Deterministische vs. probabilistische Code-Generierung: Warum Buns vibe-codierte Rust-Konvertierung Warnsignale auslöst

Claude Code v2.1.178 fügt Tool(param:value)-Berechtigungsregeln hinzu, behebt Subagent- und Authentifizierungsprobleme

Die "Ich weiß nicht, Claude hat das geschrieben"-Pandemie: Wenn kognitive Kapitulation die Code-Verantwortung ersetzt

Claude Code v2.1.86: Sitzungs-Header, Speicherkorrekturen und Token-Optimierungen