Open Source vs. Frontier-Modelle: Einzeldatei-Canvas-Autoszene-Benchmark

✍️ OpenClawRadar📅 Veröffentlicht: 17. Mai 2026🔗 Source

Ein Entwickler hat denselben Einzeldatei-Canvas-Prompt über 12 Modelle laufen lassen, um Open-Source- und Frontier-Modellfähigkeiten an einer realistischen Seitenansicht einer Autofahrszene zu vergleichen. Die Aufgabe: eine eigenständige HTML-Datei, keine Bibliotheken, keine externen Ressourcen, mit Parallax-Hintergrund, sich drehenden Rädern, subtiler Karosseriebewegung, filmischer Beleuchtung und nahtlosem Loop. Der Testrahmen ist OpenCodeOrchestra, und die Ergebnisse sind live auf oco-canvas-car-scene-compare.

Getestete Modelle

Jedes Modell lief in einem isolierten Orchestrator mit der höchsten verfügbaren Denk-/Aufwandsstufe. Die Liste umfasst GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (maximaler Aufwand), Claude Opus 4.6 (maximaler Aufwand), Claude Sonnet 4.6 (hoher Aufwand), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus und Grok 4.3. Tok/s und Generierungszeit wurden nicht gemessen.

Wichtigste Erkenntnisse

Einige Modelle verwendeten intern Audit-Modelle; andere nicht.
Klare Gewinner und mehrdeutige Ergebnisse sind in der Galerie sichtbar.
MiMo V2.5 Pro wurde aufgrund von Abrechnungsproblemen mit dem OpenCode Go-Abonnement ausgeschlossen.

Die Galerieseite ermöglicht einen direkten Vergleich der Ausgaben jedes Modells. Der Quellcode ist auf GitHub unter AidenGeunGeun/oco-canvas-car-scene-compare verfügbar.

📖 Den vollständigen Quelltext lesen: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Schiff-Rounds LIFT AI Act: Was Entwickler über den KI-Bildungsgesetzentwurf für K-12 wissen müssen

OpenAI, Google und Microsoft unterstützen den LIFT AI Act, der NSF-Zuschüsse für KI-Literacy-Curricula in K-12, Lehrertraining und Bewertungswerkzeuge bereitstellt.

4. Mai 2026, 18:23 UTC

OpenClawRadar

Nachrichten

AWS Bedrock eliminiert still und leise das Claude Opus 4.7-Kontingent: Eine Warnung für produktive KI-Workflows

Ein HN-Nutzer berichtet, dass AWS Bedrock sein Claude Opus 4.7-Kontingent ohne Vorwarnung auf 0 gesetzt hat. AWS-Support bestätigt, dass es sich um ein Systemupdate handelte und eine Wiederherstellung nicht garantiert werden kann. Benutzern wird empfohlen, zu Opus 4.6 zu migrieren oder den Anbieter zu wechseln.

2. Mai 2026, 00:16 UTC

OpenClawRadar

Nachrichten

Die Schaltkreis-Nachverfolgungsforschung von Anthropic enthüllt die internen Mechanismen von Claude 3.5 Haiku

Anthropic veröffentlichte Forschung zur Schaltkreisverfolgung an einer vereinfachten Version von Claude 3.5 Haiku, die sechs spezifische Verhaltensweisen aufdeckt, darunter den Standardzustand "Ich weiß es nicht", das rückwärts verfasste Gedicht und die duale Pfad-Mathematikverarbeitung.

27. März 2026, 19:45 UTC

OpenClawRadar

Nachrichten

Claude Skills vs. MCP: Eine praktische Grenzfrage für Entwickler

Ein Entwickler stellt die Frage, wo der Mehrwert von MCP entscheidend wird gegenüber Claude Skills, nachdem die Skills-Veröffentlichung die Integration von Werkzeugen erschwert hat, und merkt an, dass gut strukturierte Anweisungen oft ausreichen, ohne Protokollgrenzen zu benötigen.

31. März 2026, 06:45 UTC

OpenClawRadar