Le Benchmark OpenClaw Montre que Qwen3.5:27B Surpasse les Autres LLMs Locaux pour les Tâches d'Agent

✍️ OpenClawRadar📅 Publié: March 28, 2026🔗 Source
Le Benchmark OpenClaw Montre que Qwen3.5:27B Surpasse les Autres LLMs Locaux pour les Tâches d'Agent
Ad

Configuration et Résultats du Benchmark

Un utilisateur a testé 7 modèles locaux sur 22 tâches d'agent réelles en utilisant OpenClaw sur un Raspberry Pi 5 avec une RTX 3090 exécutant Ollama. Les tâches comprenaient la lecture d'e-mails, la planification de réunions, la création de tâches, la détection de phishing, la gestion d'erreurs et l'automatisation du navigateur.

Le gagnant, avec une avance considérable, était qwen3.5:27b-q4_K_M à 59,4 %. Le deuxième (qwen3.5:35b) n'a obtenu que 23,2 %. Tous les autres modèles ont obtenu moins de 5 %.

Ad

Principales Constatations

  • Le modèle quantifié 27B a battu la version plus grande 35B par 2,5 fois
  • Un modèle 30B s'est classé dernier avec 1,6 %
  • Une réflexion modérée a fonctionné le mieux - trop réfléchir a en fait nui aux performances
  • Aucun modèle n'a pu accomplir les tâches d'automatisation du navigateur
  • Le principal facteur différenciant les gagnants des perdants était la capacité du modèle à trouver et utiliser des outils en ligne de commande
  • La plupart des modèles n'ont même pas pu trouver des outils de base comme la fonction de messagerie

Ce benchmark fournit des données concrètes sur la performance de différents LLM locaux en tant qu'agents IA dans des scénarios pratiques. L'écart de performance significatif entre le meilleur modèle et les autres suggère que la capacité à trouver des outils est un goulot d'étranglement critique pour les agents LLM locaux.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code LSP : Activation du protocole Language Server pour une navigation dans le code plus rapide et plus précise
Tools

Claude Code LSP : Activation du protocole Language Server pour une navigation dans le code plus rapide et plus précise

Claude Code est livré sans LSP activé par défaut, mais son activation transforme la navigation dans le code de recherches grep de 30 à 60 secondes en requêtes de 50 ms avec une précision de 100 %. La configuration nécessite un drapeau découvert via un problème GitHub plutôt que la documentation officielle.

OpenClawRadar
Vibeyard IDE ajoute un navigateur intégré pour l'édition directe d'interfaces web avec des agents IA.
Tools

Vibeyard IDE ajoute un navigateur intégré pour l'édition directe d'interfaces web avec des agents IA.

Vibeyard, un IDE open-source pour les agents d'IA de codage, inclut désormais un type de session d'onglet de navigateur qui permet aux utilisateurs de cliquer sur des éléments dans une interface web et d'ordonner à un agent d'IA de les modifier directement, éliminant ainsi les suppositions de sélecteurs et la recherche de composants.

OpenClawRadar
Schema structuré : Qwen Meetup Draft - Le harnais d'appel de fonction améliore la conformité CoT de 9,91 % à 100 %
Tools

Schema structuré : Qwen Meetup Draft - Le harnais d'appel de fonction améliore la conformité CoT de 9,91 % à 100 %

Un suivi du précédent article sur le harnais d'appel de fonctions étend le modèle aux domaines sans compilateur (notes d'investissement, avis juridiques, dossiers cliniques). Le schéma impose des champs obligatoires — la soumission est rejetée si incomplète. Qwen3.6-27b atteint une conformité CoT de 100% sur ces schémas.

OpenClawRadar
Agent Swarm : Cadre d'Orchestration Multi-Agents pour Assistants de Codage IA
Tools

Agent Swarm : Cadre d'Orchestration Multi-Agents pour Assistants de Codage IA

Agent Swarm est un framework open-source qui permet à des équipes d'agents d'IA de codage de se coordonner de manière autonome. Un agent principal reçoit des tâches depuis Slack, GitHub ou email, les décompose et les délègue à des agents travailleurs isolés dans Docker.

OpenClawRadar