Qwen 3.6 vs Frontier: Single-File-Canvas-Autoanimation

Ein Reddit-Nutzer führte einen direkten Vergleich zwischen lokalen quantisierten Modellen und webbasierten Frontier-Modellen bei einer spezifischen Programmieraufgabe durch: Generierung einer einzelnen HTML-Datei mit einer Vollbild-Canvas-Animation eines seitlich fahrenden Autos mit Parallax-Scrolling, sich drehenden Rädern und filmischer Beleuchtung.

Die Aufgabenstellung

Die genaue Aufgabenstellung forderte eine einzelne HTML-Datei ohne Bibliotheken, eine Vollbild-Canvas, realistische Seitenansicht eines Autos, geschichtete Parallax-Szenerie, sich drehende Räder, subtile Karosseriebewegung, sanfte Endlosschleife und stimmiges Himmels-/Lichtdesign.

Getestete Modelle

Frontier (webbasiert über Perplexity, tok/s nicht gemessen):

Claude Sonnet 4.6 Thinking (nutzte Internet zur Argumentation)
Gemini 3.1 Pro Thinking
GPT 5.4 Thinking
Kimi k2.6 Thinking

Lokal (Ryzen 5 5600, 24 GB DDR4-3200, RX 5700 XT 8GB):

Qwen3.5 9B Q4_K_M — ~50 tok/s
Qwen3.6-27B (Claude-opus-reasoning-distilled) Q4_K_M — 2,65 tok/s
Qwen3.6-27B Q4_K_M — 2,70 tok/s
Qwen3.6-31B A3B Q4_K_M — 12,13 tok/s
Gemma-4-31b-it — 1,91 tok/s
Qwen3.5 4B Q8 — 60 tok/s (nutzte Internet zur Argumentation)
Qwen3.5 4B Q4_K_M — 80 tok/s (nutzte Internet zur Argumentation)

Ergebnisse & subjektive Rangliste

Die Rangliste für diese spezifische Aufgabe:

Kimi k2.6 Thinking — insgesamt sauberstes visuelles Ergebnis
Qwen3.6-27B Q4_K_M (lokal) — stärker als erwartet; gute Parallaxe und Straßengefühl
Qwen3.6-27B Claude-opus-reasoning-distilled — knapper dritter Platz

Der lokale 27B Quant lieferte natürlichere Bewegungen und Schichtung als einige Frontier-Outputs für diese spezifische visuelle Aufgabe. Der Poster bemerkte, dass sie erwartet hatten, dass Frontier-Modelle lokale Quants deutlicher übertreffen würden.

Der Nutzer änderte nur HTML <title>-Tags, um nachzuvollziehen, welches Modell welche Datei generiert hatte. Die Ergebnisse wurden im Thread zusammen mit Screenshots/GIFs der laufenden Animationen geteilt.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Lokaler Qwen 3.6 vs. Frontier-Modelle bei einer Programmier-Grundlage: Einzeldatei-HTML-Canvas-Antriebsanimation

Die Aufgabenstellung

Getestete Modelle

Ergebnisse & subjektive Rangliste

👀 Siehe auch

Claude-Code v2.1.91 fügt MCP-Ergebnis-Persistenz, Shell-Ausführungssteuerungen und mehrzeilige Deep-Links hinzu

Apples libibverbs verbirgt GPUDirect RDMA-Symbole; Zero-Copy Metal Buffer RDMA funktioniert unter macOS

Claude Code 2.1.72 System-Prompt-Updates: Neue Ausführungsmodi und Verbesserungen bei der Verifizierung

Entwicklung eines Agententeams: Wie Google Antigravity-Subagenten für autonome Codegenerierung strukturiert