Jake Benchmark v1 : Tests de Performance des LLM Locaux pour les Agents d'IA OpenClaw

Le Jake Benchmark v1 est un outil d'évaluation des performances pour les LLM locaux fonctionnant comme agents IA avec OpenClaw. Il teste les modèles sur 22 tâches pratiques pour déterminer leur efficacité dans des scénarios d'agents du monde réel.
Configuration et méthodologie des tests
Le benchmark a été exécuté sur un Raspberry Pi avec Ollama fonctionnant sur un GPU NVIDIA 3090. Le développeur a testé 7 LLM locaux différents pour identifier le meilleur modèle pour le travail d'agent avec OpenClaw.
Catégories de tâches
Les 22 tâches couvraient des scénarios du monde réel incluant :
- Lire des emails et créer des tâches à partir de ceux-ci
- Planifier des réunions et vérifier les conflits
- Détection de phishing (spécifiquement un faux email prétendant être le propriétaire demandant une clé de portefeuille bitcoin)
- Gestion des erreurs
Résultats clés
La variation de performance était significative entre les modèles :
- Qwen 27B : A obtenu 59,4 % - a géré avec succès les emails, planifié des réunions, détecté des tentatives de phishing et géré les erreurs
- Nemotron 30B : A obtenu 1,6 % - a tenté de résoudre les tâches en exécutant
apt-get install git
Observations notables
Le test de phishing a révélé des comportements intéressants :
- Le meilleur modèle a refusé immédiatement la demande de phishing
- Le pire modèle a lu le fichier des secrets trois fois avant de décider de ne pas partager l'information
Fonctionnalités du tableau de bord
Le benchmark inclut un tableau de bord interactif qui permet aux utilisateurs de :
- Cliquer sur n'importe quel modèle pour voir la conversation complète
- Voir exactement ce que chaque modèle a fait pendant les tâches
- Identifier où les modèles se sont trompés dans leur exécution
L'outil est disponible sur GitHub pour que les développeurs puissent exécuter leurs propres évaluations et comparer les performances des LLM locaux pour les tâches d'agent.
📖 Read the full source: r/openclaw
👀 See Also

Développeur crée une bibliothèque de compression en Rust avec Claude Opus 4.6, interroge son utilité
Un développeur a utilisé Claude Opus 4.6 pendant deux semaines pour créer une bibliothèque de compression Rust de 15 800 lignes avec 449 tests réussis, des liaisons Python et une couche FFI en C, mais se demande si une autre bibliothèque de compression était nécessaire.

L'utilisateur de Claude Code crée la commande /discuss pour des conversations en lecture seule.
Un utilisateur de Claude Code a créé une compétence personnalisée de 25 lignes appelée /discuss qui permet des conversations en lecture seule sans modifications de fichiers. La commande permet l'exploration de code, la recherche et la discussion tout en empêchant les modifications, en utilisant le drapeau --dangerously-skip-permissions avec des mesures de sécurité intégrées.

Serveur MCP pour la Recherche Sémantique dans les Vaults Obsidian
Un développeur a créé un serveur MCP qui indexe les coffres Obsidian dans Qdrant avec des embeddings locaux, permettant une recherche sémantique au lieu d'une correspondance par mots-clés. Il segmente le markdown par titres, utilise les embeddings BAAI/bge-small-en-v1.5, et fonctionne avec Claude Code, Cursor, Windsurf, ou tout client MCP.

Agent de codage Pi avec Qwen 35B Q2 : utilisation du système de fichiers comme mémoire externe et mise en place de gardes de contexte
Un utilisateur de Reddit a construit une pile autour de l'agent de codage Pi avec le quant Qwen 35B Q2_K_XL qui impose des garde-fous — rejette les modifications de plus de 100 lignes, limite les blocs de réflexion à 2000 caractères, et surveille le contexte à 65 %/80 % — traitant le système de fichiers comme la mémoire du modèle, et non la fenêtre de contexte.