Qwen3.5 27B vs Größere Modelle: Lokaler Test mit 2x RTX 3090

Ein Entwickler testete mehrere große Sprachmodelle für lokale Programmieraufgaben und verglich Leistung und Hardwareanforderungen. Der Test konzentrierte sich auf Qwen3.5-Varianten und Nemotron-Modelle, mit Vergleichen zu GPT-5.4 High.

Testergebnisse und Erkenntnisse

Der Entwickler testete diese spezifischen Modelle:

unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-122B-A10B-GGUF
unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
unsloth/gpt-oss-120b-GGUF:F16

Wichtige Erkenntnisse aus dem Test:

Nemotron-3-Super-120B schnitt "sehr, sehr gut" ab, auf Augenhöhe mit GPT-5.4 High
Qwen3.5-27B eignete sich gut für Entwicklungsaufgaben
GPT-OSS-120B und Qwen3.5-122B schnitten schlechter ab als die beiden anderen Modelle
Nemotron-3-Super-120B antwortete durchgehend auf Spanisch (die Muttersprache des Testers), während andere auf Englisch antworteten

Leistungsmetriken

Der Entwickler lieferte spezifische Leistungszahlen:

Nemotron-3-Super-120B: 80 Token pro Sekunde (tg/s), ~2000 Prompt-Verarbeitung (pp), 100k Kontext auf vast.ai mit 4x RTX 3090
Qwen3.5-27B Q6: 803 pp, 25 tg/s, 256k Kontext auf vast.ai

Hardwareanforderungen

Der Entwickler stellte Hardwareeinschränkungen fest:

Qwen3.5-122B würde ein neues Mainboard und 1-2 weitere RTX 3090-Karten erfordern, was zu teuer wäre
Qwen3.5-27B läuft auf bestehender 2x RTX 3090-Hardware ohne zusätzliche Investition
Wenn sie die Hardware für Nemotron-3-Super-120B hätten, würden sie diese stattdessen verwenden

Implementierungsdetails

Der Entwickler plant, Qwen3.5-27B-GGUF:UD-Q6_K_XL für echte Entwicklungsaufgaben lokal zu nutzen, und gab den für den Test verwendeten llama.cpp-Befehl an:

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

Der Entwickler erwähnte, dass sie CODEX für komplexe Aufgaben weiterhin nutzen werden, aber API-Abonnements für tägliche Aufgaben durch das lokale Setup ersetzen können.

📖 Read the full source: r/LocalLLaMA

Entwickler testet Qwen3.5 27B im Vergleich zu größeren Modellen für lokale Programmieraufgaben

Testergebnisse und Erkenntnisse

Leistungsmetriken

Hardwareanforderungen

Implementierungsdetails

👀 Siehe auch

n8n-mcp-lite: MCP-Server reduziert Token-Verbrauch für Claude mit n8n-Workflows um 80 %

Clash of Agents: Eine MMA-Arena zum Testen des Verhaltens autonomer KI-Agenten

Überarbeitung: KI-Editor entwickelt mit agentenbasierten Codierungstools und Y.js CRDT

Cloudflare Dynamic Worker Loader: Sandboxing von KI-Agenten mit Isolates