Benchmark Text-to-SQL : Les Meilleurs Petits Modèles Locaux vs OpenRouter

Un développeur a publié les résultats d'un benchmark pour les petits modèles locaux et OpenRouter sur une tâche agentique de conversion de texte en SQL. Le benchmark prend des requêtes en anglais comme "Affichez les lignes de commande, les revenus, les unités vendues, le revenu par unité (revenu total ÷ unités totales vendues), le prix catalogue moyen par produit dans la sous-catégorie, le bénéfice brut et le pourcentage de marge pour chaque sous-catégorie de produit" et les convertit en SQL qui est testé contre des tables de base de données.

Détails du Benchmark

L'agent peut voir les résultats des requêtes et modifier le SQL pour corriger les problèmes, avec une limite sur les cycles de débogage. Le benchmark est délibérément court avec 25 questions et s'exécute en bien moins de 5 minutes pour la plupart des modèles, le rendant pratique pour tester différentes configurations. Il est conçu pour être suffisamment difficile pour distinguer les meilleurs modèles des autres.

Principales Conclusions

Les meilleurs modèles open identifiés étaient kimi-k2.5, Qwen 3.5 397B-A17B et Qwen 3.5 27B
NVIDIA Nemotron-Cascade-2-30B-A3B surpasse Qwen 3.5-35B-A3B et égale Codex 5.3
Mimo v2 Flash a été décrit comme "un modèle exceptionnel"

Option Auto-hébergée

Le benchmark inclut désormais la possibilité de l'exécuter vous-même sur votre propre serveur en utilisant la version WASM de Llama.cpp. Le développeur sollicite des retours sur ce qu'il faut modifier pour la version 2 et souhaite voir les scores obtenus par d'autres avec différentes configurations.

📖 Read the full source: r/LocalLLaMA

Résultats de Référence pour les Modèles Locaux de Petite Taille et les Modèles OpenRouter sur la Tâche Agentique de Text-to-SQL

Détails du Benchmark

Principales Conclusions

Option Auto-hébergée

👀 See Also

ETL-D Serveur MCP : Analyse CSV Déterministe pour Claude afin de Prévenir les Hallucinations Financières

HostedShell : Une Solution de Déploiement Web pour les Agents OpenClaw

Construire une Infrastructure de Connaissance IA Persistante avec OpenClaw

Script PowerShell Automatise la Configuration de Docker OpenClaw sur Windows