Nelson v2.2.3 publiée : coordination multi-agents pour Claude Code, plus un benchmark de simulation à événements discrets

✍️ OpenClawRadar📅 Publié: May 9, 2026🔗 Source
Nelson v2.2.3 publiée : coordination multi-agents pour Claude Code, plus un benchmark de simulation à événements discrets
Ad

Nelson v2.2.3 est sorti — une compétence de coordination multi-agents pour Claude Code qui utilise une métaphore de la Royal Navy (amiral, capitaines, navires, équipage) pour empêcher les agents parallèles de marcher sur les plates-bandes des autres. Sous licence MIT, ~300 étoiles sur GitHub.

Installation

Exécutez ces commandes dans Claude Code :

/plugin marketplace add aspegio/nelson
/plugin install nelson@nelson
Utilise Nelson pour me construire un jeu de bataille navale.

Observez ensuite l'amiral, les capitaines et les navires se coordonner.

Ad

Résultats du benchmark

La véritable nouvelle est un benchmark construit par le même auteur. Il teste 13 combinaisons de modèle, CLI et compétence sur une tâche de simulation à événements discrets (débit synthétique d'une mine). Scores de qualité (sur 100) :

  • ouroboros-max-thinking (opus-4-7) : 97
  • plan-mode (opus-4-7) : 96
  • agent-teams-nelson-max-thinking (opus-4-7) : 95
  • superpowers-max-thinking (opus-4-7) : 94
  • max-thinking (opus-4-7) : 92
  • vanilla-max (sonnet-4-6) : 85
  • xhigh (gpt-5-5, codex) : 85
  • customtools (gemini-3.1-pro) : 81

Point clé : nelson a perdu face à ouroboros et plan-mode de 1 à 2 points mais a battu superpowers de 1 point, vanilla max-thinking de 3 points, et sonnet sans réflexion de 10 points. Plan-mode (sans compétences) a pris la deuxième place — les compétences sélectionnées n'ont pas creusé un écart important. Le modèle et l'activation de la réflexion ont compté bien plus que le choix de la compétence.

Limitations : n=1 tâche, qualité notée par rapport à une grille écrite par l'auteur de Nelson, pas encore de métrique combinée coût/précision.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Argus : Une application GitHub qui examine les fichiers CLAUDE.md et publie les scores sur les PRs
Tools

Argus : Une application GitHub qui examine les fichiers CLAUDE.md et publie les scores sur les PRs

Argus est une application GitHub créée avec Claude Code qui examine les fichiers CLAUDE.md et publie un score sur chaque demande de tirage. Après des tests sur plusieurs dépôts, les échecs les plus courants sont l'absence de limites de portée explicites et de chemins d'escalade.

OpenClawRadar
Implémentation de l'Agent Local OpenClaw avec Cache TurboQuant pour Matériel de Gamme Moyenne
Tools

Implémentation de l'Agent Local OpenClaw avec Cache TurboQuant pour Matériel de Gamme Moyenne

Une application en un clic pour OpenClaw avec des modèles locaux fonctionne désormais sur des appareils d'entrée de gamme comme le MacBook Air avec 16 Go de RAM grâce au cache TurboQuant et au préchauffage du contexte. L'implémentation corrige llama.cpp pour un appel d'outils fiable et atteint 10-15 jetons par seconde avec Gemma 4 et QWEN 3.5.

OpenClawRadar
Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0
Tools

Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0

Les agents OpenClaw subissent une perte de mémoire due à la compaction de contexte qui réécrit des fichiers comme MEMORY.md. Le plugin Mem0 résout ce problème en déplaçant la mémoire hors de la fenêtre de contexte avec des fonctionnalités de rappel automatique et de capture automatique.

OpenClawRadar
Aperçu comparatif de l'inférence rapide des LLM par Anthropic et OpenAI
Tools

Aperçu comparatif de l'inférence rapide des LLM par Anthropic et OpenAI

Anthropic et OpenAI ont publié des fonctionnalités distinctes de 'mode rapide' pour une inférence LLM plus rapide, OpenAI exploitant les puces Cerebras pour une vitesse accrue

OpenClawRadar