Benchmark LLM locaux : Qwen 27B vs GLM vs DeepSeek en backend

Cinq mois après une première mesure non contrôlée, AutoBe.dev a publié un benchmark propre des LLM locaux et frontaliers pour la génération de code backend via l'appel de fonctions. Le benchmark utilise une configuration à variable contrôlée avec une grille d'évaluation réelle, testant les modèles sur la génération de schémas AST à union récursive via un harnais d'appel de fonctions.

Principaux résultats

Le harnais d'appel de fonctions a effectivement comblé l'écart entre les modèles frontaliers et locaux en génération backend. Plus précisément, les scores de conception DB/API de gpt-5.4 sont approximativement égaux à ceux de qwen3.5-35b-a3b, et les scores de logique de claude-sonnet-4.6 correspondent à ceux de qwen3.5-27b.
Ceci est le dernier tour incluant les modèles frontaliers. Les exécuter mensuellement coûte environ 200–300 millions de tokens (~1 000–1 500 $ par modèle sur la tarification GPT 5.5). À partir du mois prochain, seuls les endpoints OpenRouter à moins de 0,25 $/M tokens ou les modèles tenant sur un ordinateur portable à mémoire unifiée de 64 Go seront inclus.
L'automatisation frontend sera ajoutée au benchmark dans le tour de juin/juillet, en utilisant le SDK qu'AutoBe émet déjà pour piloter des frontends entièrement construits par IA (visuels bruts, mais toutes les fonctions fonctionnent).

Inversions inattendues

Plusieurs résultats sont encore en cours d'investigation :

openai/gpt-5.4 obtient des scores inférieurs à ceux de son propre mini.
deepseek-v4-pro se place un cran en dessous de qwen3.5-35b-a3b et se démarque à peine de son propre Flash.
Dans la famille Qwen, le dense 27B bat toutes les variantes MoE, y compris 397B-A17B.

Les explications possibles en cours d'investigation incluent le phénomène de conformité au CoT (les modèles plus grands/frontaliers ont tendance à ignorer les instructions procédurales imposées par le harnais) et des défauts du benchmark (n=4 projets de référence, bande de score étroite, harnais évaluant son propre pipeline).

Modèles recommandés

Trois candidats verrouillés pour le mois prochain :

openai/gpt-5.4-nano — 0,25 $/M tokens
qwen/qwen3.6-27b — 0,195 $/M tokens
deepseek/deepseek-v4-flash — 0,14 $/M tokens

Tous sont à moins de 0,25 $/M sur OpenRouter ou exécutables sur un ordinateur portable à mémoire unifiée de 64 Go, et gèrent proprement l'appel de fonctions.