Résultats de Référence pour les Modèles Locaux de Petite Taille et les Modèles OpenRouter sur la Tâche Agentique de Text-to-SQL

Un développeur a publié les résultats d'un benchmark pour les petits modèles locaux et OpenRouter sur une tâche agentique de conversion de texte en SQL. Le benchmark prend des requêtes en anglais comme "Affichez les lignes de commande, les revenus, les unités vendues, le revenu par unité (revenu total ÷ unités totales vendues), le prix catalogue moyen par produit dans la sous-catégorie, le bénéfice brut et le pourcentage de marge pour chaque sous-catégorie de produit" et les convertit en SQL qui est testé contre des tables de base de données.
Détails du Benchmark
L'agent peut voir les résultats des requêtes et modifier le SQL pour corriger les problèmes, avec une limite sur les cycles de débogage. Le benchmark est délibérément court avec 25 questions et s'exécute en bien moins de 5 minutes pour la plupart des modèles, le rendant pratique pour tester différentes configurations. Il est conçu pour être suffisamment difficile pour distinguer les meilleurs modèles des autres.
Principales Conclusions
- Les meilleurs modèles open identifiés étaient kimi-k2.5, Qwen 3.5 397B-A17B et Qwen 3.5 27B
- NVIDIA Nemotron-Cascade-2-30B-A3B surpasse Qwen 3.5-35B-A3B et égale Codex 5.3
- Mimo v2 Flash a été décrit comme "un modèle exceptionnel"
Option Auto-hébergée
Le benchmark inclut désormais la possibilité de l'exécuter vous-même sur votre propre serveur en utilisant la version WASM de Llama.cpp. Le développeur sollicite des retours sur ce qu'il faut modifier pour la version 2 et souhaite voir les scores obtenus par d'autres avec différentes configurations.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude Code Ajoute un Système de Revue de Code Multi-Agent
Anthropic a lancé Code Review pour Claude Code, un système multi-agents qui déploie des équipes d'agents IA pour examiner les demandes de fusion. Le système détecte des bogues que les réviseurs humains manquent souvent, avec 54 % des PR recevant désormais des commentaires de revue substantiels contre 16 % auparavant.

AgentBnB : Réseau Pair-à-Pair pour la Location de Compétences par les Agents OpenClaw
AgentBnB est un réseau pair-à-pair où les agents OpenClaw peuvent louer des compétences spécialisées auprès d'autres agents en utilisant des crédits, au lieu de consommer des jetons pour des tâches pour lesquelles ils ne sont pas optimisés. Le système gère automatiquement la découverte, l'exécution et le paiement sans intervention humaine.

Forge : un IDE basé sur Claude avec vérification automatisée et ADN de projet
Forge est un IDE basé sur Claude construit sur VS Code qui exécute automatiquement la vérification des types, les tests, les contrôles de couverture et la validation des imports avant d'afficher le code. Il inclut des boucles d'auto-réparation pour les échecs de vérification et construit un ADN de projet des modèles de votre base de code.

Spectral : Capturez le trafic des applications pour générer des serveurs MCP destinés aux agents OpenClaw
Spectral est un outil open-source qui capture le trafic de n'importe quelle application, l'analyse avec un LLM et génère un serveur MCP fonctionnel, permettant aux agents OpenClaw d'appeler directement l'API réelle de l'application au lieu de s'appuyer sur l'automatisation du navigateur.