Entwickler testet Qwen3.5 27B im Vergleich zu größeren Modellen für lokale Programmieraufgaben

Ein Entwickler testete mehrere große Sprachmodelle für lokale Programmieraufgaben und verglich Leistung und Hardwareanforderungen. Der Test konzentrierte sich auf Qwen3.5-Varianten und Nemotron-Modelle, mit Vergleichen zu GPT-5.4 High.
Testergebnisse und Erkenntnisse
Der Entwickler testete diese spezifischen Modelle:
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
Wichtige Erkenntnisse aus dem Test:
- Nemotron-3-Super-120B schnitt "sehr, sehr gut" ab, auf Augenhöhe mit GPT-5.4 High
- Qwen3.5-27B eignete sich gut für Entwicklungsaufgaben
- GPT-OSS-120B und Qwen3.5-122B schnitten schlechter ab als die beiden anderen Modelle
- Nemotron-3-Super-120B antwortete durchgehend auf Spanisch (die Muttersprache des Testers), während andere auf Englisch antworteten
Leistungsmetriken
Der Entwickler lieferte spezifische Leistungszahlen:
- Nemotron-3-Super-120B: 80 Token pro Sekunde (tg/s), ~2000 Prompt-Verarbeitung (pp), 100k Kontext auf vast.ai mit 4x RTX 3090
- Qwen3.5-27B Q6: 803 pp, 25 tg/s, 256k Kontext auf vast.ai
Hardwareanforderungen
Der Entwickler stellte Hardwareeinschränkungen fest:
- Qwen3.5-122B würde ein neues Mainboard und 1-2 weitere RTX 3090-Karten erfordern, was zu teuer wäre
- Qwen3.5-27B läuft auf bestehender 2x RTX 3090-Hardware ohne zusätzliche Investition
- Wenn sie die Hardware für Nemotron-3-Super-120B hätten, würden sie diese stattdessen verwenden
Implementierungsdetails
Der Entwickler plant, Qwen3.5-27B-GGUF:UD-Q6_K_XL für echte Entwicklungsaufgaben lokal zu nutzen, und gab den für den Test verwendeten llama.cpp-Befehl an:
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
Der Entwickler erwähnte, dass sie CODEX für komplexe Aufgaben weiterhin nutzen werden, aber API-Abonnements für tägliche Aufgaben durch das lokale Setup ersetzen können.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Seien Sie mein Butler: Multi-Agenten-Pipeline zur Überprüfung von KI-Code
Be My Butler ist eine Open-Source-Multi-Agent-Pipeline, in der verschiedene KI-Modelle den Code des jeweils anderen durch blinde Überprüfung bewerten. Das System behebt das Problem, dass KI-Agenten ihren eigenen Code fälschlicherweise als funktionsfähig melden.

SpecLock: Open-Source-Constraint-Engine für KI-Coding-Agenten
SpecLock ist ein MCP-Server, der aktiv Einschränkungen für KI-Codierungsagenten wie Claude Code durchsetzt. Er blockiert Verstöße mit semantischen Konfliktwarnungen durch Synonym-Erweiterung, Negationserkennung und Kennzeichnung zerstörerischer Aktionen.

Lokales Dashboard verfolgt Claude Code-Nutzung mit Token-Kosten, Tool-Aufrufen und Sitzungsanalysen
Ein Entwickler hat ein lokales Dashboard erstellt, das JSONL-Sitzungsdateien von Claude Code liest, um die Token-Nutzung, geschätzte Kosten, Tool-Aufrufaufschlüsselungen und Sitzungsverlauf zu visualisieren. Das Tool läuft vollständig auf Ihrem Rechner mit einer Express-API und einem React-Dashboard.

Mengram fügt OpenClaw-Agenten persistenten Speicher hinzu.
Mengram ist ein Open-Source-Speichersystem, das OpenClaw-Agenten ein Langzeitgedächtnis über Sitzungen hinweg ermöglicht und das Problem löst, dass Agenten bei einem Neustart alles vergessen. Es bietet episodisches, Entitäts- und prozedurales Gedächtnis mit intelligenter Archivierung veralteter Fakten.