Titre local Qwen 3.6 vs modèles frontières sur une primitive de codage : Animation de conduite de toile HTML mono-fichier

Un utilisateur de Reddit a réalisé une comparaison directe entre des modèles quantifiés locaux et des modèles web de pointe sur une primitive de codage spécifique : générer un fichier HTML unique avec une animation canvas plein écran d'une voiture vue de côté roulant avec défilement parallaxe, roues tournantes et éclairage cinématographique.
Le prompt
Le prompt exact demandait un fichier HTML unique sans bibliothèques, un canvas plein écran, une animation réaliste de voiture vue de côté, un décor à calques parallaxe, des roues tournantes, un mouvement subtil de la carrosserie, une boucle fluide et un ciel/éclairage cohérent.
Modèles testés
De pointe (via Perplexity, tok/s non mesuré) :
- Claude Sonnet 4.6 Thinking (a utilisé internet pour le raisonnement)
- Gemini 3.1 Pro Thinking
- GPT 5.4 Thinking
- Kimi k2.6 Thinking
Locaux (Ryzen 5 5600, 24 Go DDR4-3200, RX 5700 XT 8 Go) :
- Qwen3.5 9B Q4_K_M — ~50 tok/s
- Qwen3.6-27B (Claude-opus-reasoning-distilled) Q4_K_M — 2,65 tok/s
- Qwen3.6-27B Q4_K_M — 2,70 tok/s
- Qwen3.6-31B A3B Q4_K_M — 12,13 tok/s
- Gemma-4-31b-it — 1,91 tok/s
- Qwen3.5 4B Q8 — 60 tok/s (a utilisé internet pour le raisonnement)
- Qwen3.5 4B Q4_K_M — 80 tok/s (a utilisé internet pour le raisonnement)
Résultats et classement subjectif
Le classement pour cette tâche spécifique :
- Kimi k2.6 Thinking — résultat visuel le plus propre globalement
- Qwen3.6-27B Q4_K_M (local) — plus performant que prévu ; bon parallaxe et sensation de route
- Qwen3.6-27B Claude-opus-reasoning-distilled — troisième proche
Le 27B quantifié local a produit un mouvement et un calque plus naturels que certains modèles de pointe pour cette primitive visuelle spécifique. L'auteur a noté qu'il s'attendait à ce que les modèles de pointe surpassent plus nettement les quantifiés locaux.
L'utilisateur a seulement changé les balises HTML <title> pour suivre quel modèle a généré quel fichier. Les sorties sont partagées dans le fil avec des captures d'écran/GIF des animations en cours.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Code Opus 4.6 utilise désormais par défaut une fenêtre de contexte de 1 million de tokens
Le modèle Opus 4.6 de Claude Code est désormais doté par défaut d'une fenêtre de contexte d'un million de tokens, tout en conservant les mêmes tarifs que les versions précédentes. Ce changement semble être en vigueur sans annonce officielle.

Anthropic lance le programme des ambassadeurs de la communauté Claude
Anthropic a lancé le programme Claude Community Ambassadors, qui fournit des ressources pour organiser des rencontres locales de développeurs et connecter les créateurs du monde entier. Le programme est ouvert aux participants de tous horizons et de toutes localisations.

L'Opérateur d'IA : Un Nouveau Rôle pour les Flux de Travail Agentiques
Rish Gupta affirme que les opérateurs IA deviendront le rôle clé dans les organisations d'ici un an, combinant des compétences techniques (Python, API LLM, frameworks d'agents) avec une compréhension des processus métier pour automatiser les tâches répétitives à fort impact.

Les limites de débit de Claude Code peuvent être dues à une surcharge de la fenêtre de contexte de 1 million de tokens
Un utilisateur de Reddit émet l'hypothèse que les limites de débit et les pannes récentes de Claude Code proviennent de la fenêtre de contexte de 1 million de tokens dans Opus 4.6, ce qui pourrait causer une compression de contexte inefficace et une surcharge des serveurs. Passer à l'ancien modèle sans fenêtre de 1 million de tokens améliorerait apparemment la stabilité.