Évaluation des LLM locaux : génération backend par appel de fonctions – comparaison entre GLM, Qwen et DeepSeek

✍️ OpenClawRadar📅 Publié: May 3, 2026🔗 Source
Évaluation des LLM locaux : génération backend par appel de fonctions – comparaison entre GLM, Qwen et DeepSeek
Ad

Cinq mois après une première mesure non contrôlée, AutoBe.dev a publié un benchmark propre des LLM locaux et frontaliers pour la génération de code backend via l'appel de fonctions. Le benchmark utilise une configuration à variable contrôlée avec une grille d'évaluation réelle, testant les modèles sur la génération de schémas AST à union récursive via un harnais d'appel de fonctions.

Principaux résultats

  • Le harnais d'appel de fonctions a effectivement comblé l'écart entre les modèles frontaliers et locaux en génération backend. Plus précisément, les scores de conception DB/API de gpt-5.4 sont approximativement égaux à ceux de qwen3.5-35b-a3b, et les scores de logique de claude-sonnet-4.6 correspondent à ceux de qwen3.5-27b.
  • Ceci est le dernier tour incluant les modèles frontaliers. Les exécuter mensuellement coûte environ 200–300 millions de tokens (~1 000–1 500 $ par modèle sur la tarification GPT 5.5). À partir du mois prochain, seuls les endpoints OpenRouter à moins de 0,25 $/M tokens ou les modèles tenant sur un ordinateur portable à mémoire unifiée de 64 Go seront inclus.
  • L'automatisation frontend sera ajoutée au benchmark dans le tour de juin/juillet, en utilisant le SDK qu'AutoBe émet déjà pour piloter des frontends entièrement construits par IA (visuels bruts, mais toutes les fonctions fonctionnent).
Ad

Inversions inattendues

Plusieurs résultats sont encore en cours d'investigation :

  • openai/gpt-5.4 obtient des scores inférieurs à ceux de son propre mini.
  • deepseek-v4-pro se place un cran en dessous de qwen3.5-35b-a3b et se démarque à peine de son propre Flash.
  • Dans la famille Qwen, le dense 27B bat toutes les variantes MoE, y compris 397B-A17B.

Les explications possibles en cours d'investigation incluent le phénomène de conformité au CoT (les modèles plus grands/frontaliers ont tendance à ignorer les instructions procédurales imposées par le harnais) et des défauts du benchmark (n=4 projets de référence, bande de score étroite, harnais évaluant son propre pipeline).

Modèles recommandés

Trois candidats verrouillés pour le mois prochain :

  • openai/gpt-5.4-nano — 0,25 $/M tokens
  • qwen/qwen3.6-27b — 0,195 $/M tokens
  • deepseek/deepseek-v4-flash — 0,14 $/M tokens

Tous sont à moins de 0,25 $/M sur OpenRouter ou exécutables sur un ordinateur portable à mémoire unifiée de 64 Go, et gèrent proprement l'appel de fonctions.

Références

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.105 Sortie : Améliorations des Worktrees, Moniteurs de Plugins et Corrections de l'Interface
News

Claude-Code v2.1.105 Sortie : Améliorations des Worktrees, Moniteurs de Plugins et Corrections de l'Interface

Claude-Code v2.1.105 ajoute un paramètre de chemin à l'outil EnterWorktree pour basculer vers des arbres de travail existants, introduit la prise en charge de moniteurs en arrière-plan pour les plugins via une clé de manifeste monitors, et corrige plus de 30 problèmes incluant des problèmes d'affichage de l'interface utilisateur, la gestion des serveurs MCP et la compatibilité du terminal.

OpenClawRadar
Histoire d'OpenClaw : De Moltbot à la révolution de l'IA open source
News

Histoire d'OpenClaw : De Moltbot à la révolution de l'IA open source

Aucun

Google TimesFM 2.5 : modèle de séries temporelles à 200 millions de paramètres avec un contexte de 16 000
News

Google TimesFM 2.5 : modèle de séries temporelles à 200 millions de paramètres avec un contexte de 16 000

Google Research a publié TimesFM 2.5, un modèle de base de 200 millions de paramètres à décodeur uniquement pour la prévision de séries temporelles, avec une longueur de contexte de 16k et une prévision continue par quantile jusqu'à un horizon de 1k.

OpenClawRadar
Les agents d'IA préfèrent les requêtes structurées au langage naturel lors des tests du serveur MCP Cala.
News

Les agents d'IA préfèrent les requêtes structurées au langage naturel lors des tests du serveur MCP Cala.

L'équipe de Cala a construit un serveur MCP avec trois méthodes d'accès au graphe de connaissances : requêtes en langage naturel, langage de requête structuré et parcours direct des entités/relations. Les agents ont abandonné le langage naturel en quelques minutes, choisissant les requêtes structurées et le parcours de graphe sans incitation.

OpenClawRadar