Open Source vs. Frontier-Modelle: Einzeldatei-Canvas-Autoszene-Benchmark

Ein Entwickler hat denselben Einzeldatei-Canvas-Prompt über 12 Modelle laufen lassen, um Open-Source- und Frontier-Modellfähigkeiten an einer realistischen Seitenansicht einer Autofahrszene zu vergleichen. Die Aufgabe: eine eigenständige HTML-Datei, keine Bibliotheken, keine externen Ressourcen, mit Parallax-Hintergrund, sich drehenden Rädern, subtiler Karosseriebewegung, filmischer Beleuchtung und nahtlosem Loop. Der Testrahmen ist OpenCodeOrchestra, und die Ergebnisse sind live auf oco-canvas-car-scene-compare.
Getestete Modelle
Jedes Modell lief in einem isolierten Orchestrator mit der höchsten verfügbaren Denk-/Aufwandsstufe. Die Liste umfasst GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (maximaler Aufwand), Claude Opus 4.6 (maximaler Aufwand), Claude Sonnet 4.6 (hoher Aufwand), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus und Grok 4.3. Tok/s und Generierungszeit wurden nicht gemessen.
Wichtigste Erkenntnisse
- Einige Modelle verwendeten intern Audit-Modelle; andere nicht.
- Klare Gewinner und mehrdeutige Ergebnisse sind in der Galerie sichtbar.
- MiMo V2.5 Pro wurde aufgrund von Abrechnungsproblemen mit dem OpenCode Go-Abonnement ausgeschlossen.
Die Galerieseite ermöglicht einen direkten Vergleich der Ausgaben jedes Modells. Der Quellcode ist auf GitHub unter AidenGeunGeun/oco-canvas-car-scene-compare verfügbar.
📖 Den vollständigen Quelltext lesen: r/LocalLLaMA
👀 Siehe auch

OpenClaws häufige Breaking Changes: Aktualisierungsverfahren und aktuelle Probleme
OpenClaw hat im März 2026 allein 13 Punktversionen veröffentlicht, wobei Breaking Changes alle 2-3 Wochen auftreten. Die Quelle bietet spezifische Update-Prozeduren und nennt aktuelle Probleme in Version 3.28, darunter Änderungen bei der Localhost-Authentifizierung und Regressionsfehler.

Bloomberg berichtet: Arbeitsplatzverluste in den USA durch KI-Belastung beginnen zuzunehmen
Bloomberg berichtet, dass die USA erhebliche Arbeitsplatzverluste in KI-exponierten Berufen verzeichnen, wobei eine Diskussion auf Hacker News auf reale Auswirkungen auf Entwickler und andere Wissensarbeiter hinweist.

Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken
OpenClaw-Nutzer haben Probleme mit nicht reaktionsschnellen KI-Coding-Agenten. Die Diskussion auf Reddit beleuchtet mögliche Ursachen und Nutzerfeedback.
Claude AI öffnet zusammengeführten PR für Magic-Link-Bug, während Entwickler schläft
Ein Reddit-Nutzer berichtet, dass Claude AI um 4:46 Uhr automatisch einen Produktions-Bug mit Magic-Links behoben hat – der Schritt zum Trimmen/Kleinmachen wurde vor den E-Mail-Validator geschoben – PR ohne Änderungen gemergt.