Le Benchmark OpenClaw Montre que Qwen3.5:27B Surpasse les Autres LLMs Locaux pour les Tâches d'Agent

✍️ OpenClawRadar📅 Publié: March 28, 2026🔗 Source

Configuration et Résultats du Benchmark

Un utilisateur a testé 7 modèles locaux sur 22 tâches d'agent réelles en utilisant OpenClaw sur un Raspberry Pi 5 avec une RTX 3090 exécutant Ollama. Les tâches comprenaient la lecture d'e-mails, la planification de réunions, la création de tâches, la détection de phishing, la gestion d'erreurs et l'automatisation du navigateur.

Le gagnant, avec une avance considérable, était qwen3.5:27b-q4_K_M à 59,4 %. Le deuxième (qwen3.5:35b) n'a obtenu que 23,2 %. Tous les autres modèles ont obtenu moins de 5 %.

Principales Constatations

Le modèle quantifié 27B a battu la version plus grande 35B par 2,5 fois
Un modèle 30B s'est classé dernier avec 1,6 %
Une réflexion modérée a fonctionné le mieux - trop réfléchir a en fait nui aux performances
Aucun modèle n'a pu accomplir les tâches d'automatisation du navigateur
Le principal facteur différenciant les gagnants des perdants était la capacité du modèle à trouver et utiliser des outils en ligne de commande
La plupart des modèles n'ont même pas pu trouver des outils de base comme la fonction de messagerie

Ce benchmark fournit des données concrètes sur la performance de différents LLM locaux en tant qu'agents IA dans des scénarios pratiques. L'écart de performance significatif entre le meilleur modèle et les autres suggère que la capacité à trouver des outils est un goulot d'étranglement critique pour les agents LLM locaux.

📖 Read the full source: r/LocalLLaMA

👀 See Also

Tools

Claude Code Karma : Tableau de bord d'observabilité locale pour les sessions Claude Code

Claude Code Karma est un tableau de bord local open-source qui analyse les fichiers JSONL de ~/.claude/ pour visualiser les données des sessions Claude Code, suivre l'utilisation des outils et surveiller les échecs silencieux. Construit avec FastAPI, Svelte-Kit 2, Svelte 5 et SQLite, il fournit des chronologies complètes des sessions et un suivi en temps réel.

Mar 1, 2026, 05:45 AM UTC

OpenClawRadar

Tools

AutoBe : Comment des LLM locaux faibles ont corrigé l'architecture d'un générateur de backend IA

AutoBe est un agent IA open-source qui génère des applications backend complètes en utilisant TypeScript, NestJS et Prisma. L'équipe a découvert que leur succès initial de compilation à 100 % produisait du code non maintenable, puis a reconstruit avec une génération modulaire - faisant chuter le succès à 40 % - et a utilisé des LLM locaux faibles comme qwen3-30b-a3b-thinking pour déboguer les ambiguïtés de schéma.

Feb 27, 2026, 05:45 AM UTC

OpenClawRadar

Tools

Auto Router vs Sonnet : Économies de coût vs Qualité de réponse

La fonctionnalité Auto Router d'Open Router sélectionne dynamiquement des LLM en fonction de la complexité du contexte, offrant des économies de coût significatives (0,8 centime contre 0,00071 centime par requête), mais les utilisateurs signalent une dégradation de la qualité des réponses par rapport à Sonnet 4.6.

Apr 19, 2026, 11:45 AM UTC

OpenClawRadar

Tools

Claude Code v2.1.144 : Sessions en arrière-plan, cadrage /modèle et délai de démarrage de 15s

Claude Code v2.1.144 ajoute /resume pour les sessions en arrière-plan, limite /model à la session en cours et corrige un blocage de 75 secondes au démarrage lorsque api.anthropic.com est inaccessible avec un délai d'attente de 15 secondes.

May 19, 2026, 02:17 AM UTC

OpenClawRadar