Open Source vs. Frontier-Modelle: Einzeldatei-Canvas-Autoszene-Benchmark

✍️ OpenClawRadar📅 Veröffentlicht: 17. Mai 2026🔗 Source
Open Source vs. Frontier-Modelle: Einzeldatei-Canvas-Autoszene-Benchmark
Ad

Ein Entwickler hat denselben Einzeldatei-Canvas-Prompt über 12 Modelle laufen lassen, um Open-Source- und Frontier-Modellfähigkeiten an einer realistischen Seitenansicht einer Autofahrszene zu vergleichen. Die Aufgabe: eine eigenständige HTML-Datei, keine Bibliotheken, keine externen Ressourcen, mit Parallax-Hintergrund, sich drehenden Rädern, subtiler Karosseriebewegung, filmischer Beleuchtung und nahtlosem Loop. Der Testrahmen ist OpenCodeOrchestra, und die Ergebnisse sind live auf oco-canvas-car-scene-compare.

Getestete Modelle

Jedes Modell lief in einem isolierten Orchestrator mit der höchsten verfügbaren Denk-/Aufwandsstufe. Die Liste umfasst GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (maximaler Aufwand), Claude Opus 4.6 (maximaler Aufwand), Claude Sonnet 4.6 (hoher Aufwand), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus und Grok 4.3. Tok/s und Generierungszeit wurden nicht gemessen.

Ad

Wichtigste Erkenntnisse

  • Einige Modelle verwendeten intern Audit-Modelle; andere nicht.
  • Klare Gewinner und mehrdeutige Ergebnisse sind in der Galerie sichtbar.
  • MiMo V2.5 Pro wurde aufgrund von Abrechnungsproblemen mit dem OpenCode Go-Abonnement ausgeschlossen.

Die Galerieseite ermöglicht einen direkten Vergleich der Ausgaben jedes Modells. Der Quellcode ist auf GitHub unter AidenGeunGeun/oco-canvas-car-scene-compare verfügbar.

📖 Den vollständigen Quelltext lesen: r/LocalLLaMA

Ad

👀 Siehe auch