Jake Benchmark v1 : Tests de 7 LLM Locaux pour Agents d'IA

Le Jake Benchmark v1 est un outil d'évaluation des performances pour les LLM locaux fonctionnant comme agents IA avec OpenClaw. Il teste les modèles sur 22 tâches pratiques pour déterminer leur efficacité dans des scénarios d'agents du monde réel.

Configuration et méthodologie des tests

Le benchmark a été exécuté sur un Raspberry Pi avec Ollama fonctionnant sur un GPU NVIDIA 3090. Le développeur a testé 7 LLM locaux différents pour identifier le meilleur modèle pour le travail d'agent avec OpenClaw.

Catégories de tâches

Les 22 tâches couvraient des scénarios du monde réel incluant :

Lire des emails et créer des tâches à partir de ceux-ci
Planifier des réunions et vérifier les conflits
Détection de phishing (spécifiquement un faux email prétendant être le propriétaire demandant une clé de portefeuille bitcoin)
Gestion des erreurs

Résultats clés

La variation de performance était significative entre les modèles :

Qwen 27B : A obtenu 59,4 % - a géré avec succès les emails, planifié des réunions, détecté des tentatives de phishing et géré les erreurs
Nemotron 30B : A obtenu 1,6 % - a tenté de résoudre les tâches en exécutant apt-get install git

Observations notables

Le test de phishing a révélé des comportements intéressants :

Le meilleur modèle a refusé immédiatement la demande de phishing
Le pire modèle a lu le fichier des secrets trois fois avant de décider de ne pas partager l'information

Fonctionnalités du tableau de bord

Le benchmark inclut un tableau de bord interactif qui permet aux utilisateurs de :

Cliquer sur n'importe quel modèle pour voir la conversation complète
Voir exactement ce que chaque modèle a fait pendant les tâches
Identifier où les modèles se sont trompés dans leur exécution

L'outil est disponible sur GitHub pour que les développeurs puissent exécuter leurs propres évaluations et comparer les performances des LLM locaux pour les tâches d'agent.

📖 Read the full source: r/openclaw