Résultats de Référence pour les Modèles Locaux de Petite Taille et les Modèles OpenRouter sur la Tâche Agentique de Text-to-SQL

✍️ OpenClawRadar📅 Publié: April 17, 2026🔗 Source
Résultats de Référence pour les Modèles Locaux de Petite Taille et les Modèles OpenRouter sur la Tâche Agentique de Text-to-SQL
Ad

Un développeur a publié les résultats d'un benchmark pour les petits modèles locaux et OpenRouter sur une tâche agentique de conversion de texte en SQL. Le benchmark prend des requêtes en anglais comme "Affichez les lignes de commande, les revenus, les unités vendues, le revenu par unité (revenu total ÷ unités totales vendues), le prix catalogue moyen par produit dans la sous-catégorie, le bénéfice brut et le pourcentage de marge pour chaque sous-catégorie de produit" et les convertit en SQL qui est testé contre des tables de base de données.

Détails du Benchmark

L'agent peut voir les résultats des requêtes et modifier le SQL pour corriger les problèmes, avec une limite sur les cycles de débogage. Le benchmark est délibérément court avec 25 questions et s'exécute en bien moins de 5 minutes pour la plupart des modèles, le rendant pratique pour tester différentes configurations. Il est conçu pour être suffisamment difficile pour distinguer les meilleurs modèles des autres.

Ad

Principales Conclusions

  • Les meilleurs modèles open identifiés étaient kimi-k2.5, Qwen 3.5 397B-A17B et Qwen 3.5 27B
  • NVIDIA Nemotron-Cascade-2-30B-A3B surpasse Qwen 3.5-35B-A3B et égale Codex 5.3
  • Mimo v2 Flash a été décrit comme "un modèle exceptionnel"

Option Auto-hébergée

Le benchmark inclut désormais la possibilité de l'exécuter vous-même sur votre propre serveur en utilisant la version WASM de Llama.cpp. Le développeur sollicite des retours sur ce qu'il faut modifier pour la version 2 et souhaite voir les scores obtenus par d'autres avec différentes configurations.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code Ajoute un Système de Revue de Code Multi-Agent
Tools

Claude Code Ajoute un Système de Revue de Code Multi-Agent

Anthropic a lancé Code Review pour Claude Code, un système multi-agents qui déploie des équipes d'agents IA pour examiner les demandes de fusion. Le système détecte des bogues que les réviseurs humains manquent souvent, avec 54 % des PR recevant désormais des commentaires de revue substantiels contre 16 % auparavant.

OpenClawRadar
AgentBnB : Réseau Pair-à-Pair pour la Location de Compétences par les Agents OpenClaw
Tools

AgentBnB : Réseau Pair-à-Pair pour la Location de Compétences par les Agents OpenClaw

AgentBnB est un réseau pair-à-pair où les agents OpenClaw peuvent louer des compétences spécialisées auprès d'autres agents en utilisant des crédits, au lieu de consommer des jetons pour des tâches pour lesquelles ils ne sont pas optimisés. Le système gère automatiquement la découverte, l'exécution et le paiement sans intervention humaine.

OpenClawRadar
Forge : un IDE basé sur Claude avec vérification automatisée et ADN de projet
Tools

Forge : un IDE basé sur Claude avec vérification automatisée et ADN de projet

Forge est un IDE basé sur Claude construit sur VS Code qui exécute automatiquement la vérification des types, les tests, les contrôles de couverture et la validation des imports avant d'afficher le code. Il inclut des boucles d'auto-réparation pour les échecs de vérification et construit un ADN de projet des modèles de votre base de code.

OpenClawRadar
Spectral : Capturez le trafic des applications pour générer des serveurs MCP destinés aux agents OpenClaw
Tools

Spectral : Capturez le trafic des applications pour générer des serveurs MCP destinés aux agents OpenClaw

Spectral est un outil open-source qui capture le trafic de n'importe quelle application, l'analyse avec un LLM et génère un serveur MCP fonctionnel, permettant aux agents OpenClaw d'appeler directement l'API réelle de l'application au lieu de s'appuyer sur l'automatisation du navigateur.

OpenClawRadar