Qwen 3.6 27B bei 52,8 tps TG auf AMD MI50s: Volle Genauigkeit, kein MTP, keine Quantisierung

Ein Reddit-Benutzer hat Benchmark-Ergebnisse für den Betrieb von Qwen3.6-27B (volle Präzision, keine Quantisierung) auf acht AMD MI50s (GPUs von 2018) mit einem benutzerdefinierten vllm-Fork veröffentlicht. Das System erreicht 52,8 Token pro Sekunde (tps) für die Textgenerierung und 1569 tps für die Prompt-Verarbeitung mit TP8, keinem MTP und keinen Flash-Attention-Optimierungen, die große Prompts verlangsamen könnten.
Wichtige Details
- Hardware: 8x AMD MI50s, PCIe (noch ohne PCIe-Switch)
- Engine: vllm-Fork v0.20.1 mit ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
- Modell:
Qwen/Qwen3.6-27B(HuggingFace volle Präzision FP16) - Quantisierung: Keine – volle FP16-Präzision
- MTP: Deaktiviert (langsamer bei großen Prompts)
- Flash Attention: Nicht verwendet (Triton-basierte AMD Flash Attention ist bei großen Prompts ebenfalls langsamer)
- Prompt: Einzelne Inferenz mit 1K- und 15K-Token-Prompts (Benchmark verwendete 10K Input, 1K Output)
Benchmark-Ergebnisse
Successful requests: 4 Total input tokens: 40000 Total generated tokens: 4000 Output token throughput (tok/s): 32.91 Peak output token throughput (tok/s): 56.00 Total token throughput (tok/s): 362.03 Mean TTFT (ms): 32874.56 Mean TPOT (ms): 88.66 Mean ITL (ms): 88.66
Hinweis: Der Benutzer berichtet 52,8 tps TG für eine einzelne Inferenz mit einem 15K-Prompt; der Benchmark zeigt aggregierte Ergebnisse über 4 Anfragen mit je 10K Input. Mit TP2 passt das Modell ebenfalls und läuft mit ~34 tps TG.
Einrichtungskommandos (Docker + vllm serve)
docker run -it --name vllm-gfx906-mobydick \
-v /llm:/llm --network host \
--device=/dev/kfd --device=/dev/dri \
--group-add video --group-add $(getent group render | cut -d: -f3) \
--ipc=host \
aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
--skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 --port 8000 2>&1 | tee log.txt
Für wen es geeignet ist
Entwickler, die agentische Codierungswerkzeuge (z. B. Claude Code, Hermes) auf AMD-Hardware betreiben, insbesondere mit großen Prompts und Anforderungen an volle Präzision.
Der Benutzer merkt an, dass weitere Verbesserungen durch PCIe-Switches (geringere Latenz), optimiertere Flash Attention/MTP für ROCm/gfx906 und aktualisierte Software-Stacks möglich sind.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Automatisierung von sozialen Medien mit OpenClaw: Möglichkeiten und Diskussionen
Eine Diskussion auf Reddit untersucht das Potenzial der Automatisierung von Social-Media-Aufgaben mit OpenClaw.

Rust-Projekt-Perspektiven zu KI: Praktische Einblicke von Mitwirkenden
Ein Zusammenfassungsdokument sammelt Perspektiven von Rust-Mitwirkenden zur Nutzung von KI-Tools und hebt hervor, dass eine effektive KI-Integration sorgfältiges Engineering erfordert. Es zeigt konkrete Anwendungsfälle wie die Navigation in Codebasen, Unterstützung bei Code-Reviews und die Verarbeitung halbstrukturierter Daten.

Anthropic-Bericht zur Intensität der globalen KI-Adaption
Die neuesten Daten von Anthropic zeigen eine ungleichmäßige globale KI-Adaption, die die Intensität der Nutzung misst, nicht die Gesamtzahl der Nutzer. Der Bericht zeigt, wo KI in Arbeitsabläufe wie Programmierung, Forschung und Entscheidungsfindung bei Einzelpersonen und Unternehmen eingebettet ist.

Claude Code Systemprompt-Montage und Struktur enthüllt
Ein Source-Map-Leck im npm-Paket von Claude Code legte den System-Prompt-Erstellungsprozess offen, der statische Präfixabschnitte gefolgt von dynamischen, sitzungsspezifischen Inhalten zeigt, mit drei Identitätsvarianten und detaillierten Ausführungsrichtlinien.