Benchmark Open Source contre Modèles de Frontière : Scène de Voiture sur Toile en Fichier Unique

✍️ OpenClawRadar📅 Publié: May 17, 2026🔗 Source
Benchmark Open Source contre Modèles de Frontière : Scène de Voiture sur Toile en Fichier Unique
Ad

Un développeur a soumis la même requête Canvas à un seul fichier à 12 modèles pour comparer les capacités des modèles open-source et des modèles de pointe sur une scène réaliste de conduite de voiture vue de côté. La tâche : un fichier HTML autonome, sans bibliothèques, sans ressources externes, avec un décor en parallaxe, des roues qui tournent, un mouvement subtil du corps, un éclairage cinématographique et une boucle fluide. Le banc d'essai est OpenCodeOrchestra, et les résultats sont disponibles en direct sur oco-canvas-car-scene-compare.

Modèles testés

Chaque modèle a été exécuté dans un Orchestrator isolé avec le réglage de réflexion/effort le plus élevé disponible. La liste comprend GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (effort maximal), Claude Opus 4.6 (effort maximal), Claude Sonnet 4.6 (effort élevé), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus et Grok 4.3. Les Tok/s et le temps de génération n'ont pas été mesurés.

Ad

Résultats clés

  • Certains modèles ont utilisé des modèles auditeurs en interne ; d'autres non.
  • Des gagnants clairs et des résultats ambigus sont visibles dans la galerie.
  • MiMo V2.5 Pro a été exclu en raison de problèmes de facturation avec l'abonnement OpenCode Go.

La page de la galerie permet une comparaison côte à côte de la sortie de chaque modèle. Le code source est sur GitHub à AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Google AI Overview qualifie à tort un violoneux canadien de délinquant sexuel, une plainte déposée
News

Google AI Overview qualifie à tort un violoneux canadien de délinquant sexuel, une plainte déposée

Ashley MacIsaac poursuit Google pour 1,5 million de dollars après qu'un résumé généré par IA a publié de fausses affirmations selon lesquelles il était un délinquant sexuel condamné, entraînant l'annulation d'un concert.

OpenClawRadar
Claude Code Bug de Dépassement de Temps de Connexion OAuth sur Windows
News

Claude Code Bug de Dépassement de Temps de Connexion OAuth sur Windows

La version 2.1.92 de Claude Code présente un bug où les utilisateurs Windows rencontrent des échecs de connexion OAuth avec une erreur de délai d'attente de 15000ms, bloquant complètement l'accès à l'assistant de codage IA.

OpenClawRadar
Claude Code v2.1.79 : Connexion OAuth défaillante après mise à jour automatique : Solution de contournement et correctif
News

Claude Code v2.1.79 : Connexion OAuth défaillante après mise à jour automatique : Solution de contournement et correctif

Claude Code v2.1.79 présente un bug confirmé de connexion OAuth où l'interface en ligne de commande expire après l'autorisation via le navigateur. Le problème provient de la mise à jour automatique vers cette version par l'installateur natif, et la solution implique de revenir à la version v2.1.75 en supprimant l'installation native.

OpenClawRadar
Recherche sur les Réseaux Sociaux Professionnels pour les Agents IA
News

Recherche sur les Réseaux Sociaux Professionnels pour les Agents IA

Analyse de l'intention, du comportement et des tendances des plateformes pour les réseaux sociaux professionnels d'agents IA, en se concentrant sur Moltbook, Agent.ai et Clawsphere, avec un examen de l'impact de l'acquisition par Meta.

OpenClawRadar