Évaluation des LLM locaux : génération backend par appel de fonctions – comparaison entre GLM, Qwen et DeepSeek

Cinq mois après une première mesure non contrôlée, AutoBe.dev a publié un benchmark propre des LLM locaux et frontaliers pour la génération de code backend via l'appel de fonctions. Le benchmark utilise une configuration à variable contrôlée avec une grille d'évaluation réelle, testant les modèles sur la génération de schémas AST à union récursive via un harnais d'appel de fonctions.
Principaux résultats
- Le harnais d'appel de fonctions a effectivement comblé l'écart entre les modèles frontaliers et locaux en génération backend. Plus précisément, les scores de conception DB/API de
gpt-5.4sont approximativement égaux à ceux deqwen3.5-35b-a3b, et les scores de logique declaude-sonnet-4.6correspondent à ceux deqwen3.5-27b. - Ceci est le dernier tour incluant les modèles frontaliers. Les exécuter mensuellement coûte environ 200–300 millions de tokens (~1 000–1 500 $ par modèle sur la tarification GPT 5.5). À partir du mois prochain, seuls les endpoints OpenRouter à moins de 0,25 $/M tokens ou les modèles tenant sur un ordinateur portable à mémoire unifiée de 64 Go seront inclus.
- L'automatisation frontend sera ajoutée au benchmark dans le tour de juin/juillet, en utilisant le SDK qu'AutoBe émet déjà pour piloter des frontends entièrement construits par IA (visuels bruts, mais toutes les fonctions fonctionnent).
Inversions inattendues
Plusieurs résultats sont encore en cours d'investigation :
openai/gpt-5.4obtient des scores inférieurs à ceux de son propremini.deepseek-v4-prose place un cran en dessous deqwen3.5-35b-a3bet se démarque à peine de son propreFlash.- Dans la famille Qwen, le dense 27B bat toutes les variantes MoE, y compris 397B-A17B.
Les explications possibles en cours d'investigation incluent le phénomène de conformité au CoT (les modèles plus grands/frontaliers ont tendance à ignorer les instructions procédurales imposées par le harnais) et des défauts du benchmark (n=4 projets de référence, bande de score étroite, harnais évaluant son propre pipeline).
Modèles recommandés
Trois candidats verrouillés pour le mois prochain :
openai/gpt-5.4-nano— 0,25 $/M tokensqwen/qwen3.6-27b— 0,195 $/M tokensdeepseek/deepseek-v4-flash— 0,14 $/M tokens
Tous sont à moins de 0,25 $/M sur OpenRouter ou exécutables sur un ordinateur portable à mémoire unifiée de 64 Go, et gèrent proprement l'appel de fonctions.
Références
- Tableau de bord du benchmark : https://autobe.dev/benchmark/
- Résultats de génération : GitHub : autobe-examples
- Dépôt GitHub : https://github.com/wrtnlabs/autobe
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude-Code v2.1.105 Sortie : Améliorations des Worktrees, Moniteurs de Plugins et Corrections de l'Interface
Claude-Code v2.1.105 ajoute un paramètre de chemin à l'outil EnterWorktree pour basculer vers des arbres de travail existants, introduit la prise en charge de moniteurs en arrière-plan pour les plugins via une clé de manifeste monitors, et corrige plus de 30 problèmes incluant des problèmes d'affichage de l'interface utilisateur, la gestion des serveurs MCP et la compatibilité du terminal.

Histoire d'OpenClaw : De Moltbot à la révolution de l'IA open source
Aucun

Google TimesFM 2.5 : modèle de séries temporelles à 200 millions de paramètres avec un contexte de 16 000
Google Research a publié TimesFM 2.5, un modèle de base de 200 millions de paramètres à décodeur uniquement pour la prévision de séries temporelles, avec une longueur de contexte de 16k et une prévision continue par quantile jusqu'à un horizon de 1k.

Les agents d'IA préfèrent les requêtes structurées au langage naturel lors des tests du serveur MCP Cala.
L'équipe de Cala a construit un serveur MCP avec trois méthodes d'accès au graphe de connaissances : requêtes en langage naturel, langage de requête structuré et parcours direct des entités/relations. Les agents ont abandonné le langage naturel en quelques minutes, choisissant les requêtes structurées et le parcours de graphe sans incitation.