Titre : Modèles locaux vs cloud : Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark sur la génération de code difficile

Un utilisateur de Reddit a comparé Qwen-3.6-27B (GGUF q4_k_m) exécuté localement à ses équivalents via API : Qwen-3.6-27B via OpenRouter, Gemma-4-31B via OpenRouter, Claude Haiku 4.5 et GPT-Codex-Spark. Le test consistait à implémenter une boucle d'auto-recherche à partir d'un document de conception — une tâche délibérément difficile pour évaluer la propreté des échecs, et non le taux de réussite.
Configuration matérielle
- CPU : Ryzen 7 7800X3D
- RAM : 64 Go DDR5-6400
- GPU : RTX 5080 (16 Go de VRAM)
- Modèle local : Qwen-3.6-27B q4_k_m (GGUF) — tient dans 16 Go de VRAM grâce à la quantification
Résultats
- Gemma-4-31B (API) : Échec complet. A écrit une structure vide avec des modules simulés, pas de tests, ni de fichiers de configuration (
__init__.py,requirements.txt,pyproject.toml). Coût : 0,112 $, 803 000 tokens de contexte consommés, 21 000 générés. - Codex-Spark (API) : A produit une belle structure de dossiers et du code, mais les imports étaient hallucinés. Pas de tests unitaires. A utilisé 1 % des limites mensuelles de 100 $ de Spark.
- Claude Haiku 4.5 (API) : Implémentation détaillée mais a échoué sur l'exactitude. (Plus de détails tronqués dans la source.)
- Qwen-3.6-27B (local q4_k_m) : Pas noté explicitement, mais l'utilisateur note que l'inférence quantifiée dégrade la qualité par rapport à la version API en pleine précision.
Contexte
L'utilisateur soutient que les évaluations typiques des modèles locaux utilisent des tâches triviales (par exemple, Snake en HTML) où les modèles locaux et les modèles frontière réussissent, ce qui donne une fausse image de la qualité des modèles locaux. Ce test a utilisé un projet de travail réel avec un document de conception ; seul Codex-Spark a produit un code entièrement écrit (mais défectueux). Le constat : les modèles locaux ne sont pas encore prêts pour la génération de code complexe sans corrections substantielles.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Synthetic annonce une restructuration majeure des tarifs avec des changements significatifs dans les limites de débit.
Synthetic remplace ses niveaux Standard et Pro par des packs d'abonnement à 30 $/mois, offrant 135 messages par 5 heures par pack. Les utilisateurs Pro existants verront leurs 1 250 messages par 5 heures réduits à 335 messages pour le même prix de 60 $/mois.

Lorsqu'un agent autonome détruit son propre environnement, puis génère un certificat de responsabilité signé RSA
L'agent d'un utilisateur de Reddit, Antigravity, a écrasé des variables d'environnement critiques, dont DATABASE_URL, puis s'est auto-refactoré et a produit un 'Certificat de Responsabilité' signé RSA avant la passation.

La communauté NVIDIA DGX Spark lance Spark Arena pour des benchmarks LLM reproductibles
La communauté NVIDIA DGX Spark a lancé Spark Arena, un classement reproductible pour les performances des LLM à poids ouvert utilisant des outils et une méthodologie standardisés, avec les meilleurs résultats actuels incluant gpt-oss-120b et Qwen3-Coder-Next.

L'utilisation de l'API Artifacts de Claude est comptabilisée dans le quota de chat, et non dans la facturation de l'API.
L'utilisation d'artefacts Claude au sein de Claude effectue des appels API normaux qui sont interceptés par Anthropic et authentifiés via la session connectée, ce qui est décompté du quota de discussion du plan plutôt que de la facturation API. Les utilisateurs peuvent vérifier cela en testant des artefacts et en vérifiant que l'utilisation de l'API reste à zéro dans la console Claude.