Nelson v2.2.3 publiée : coordination multi-agents pour Claude Code, plus un benchmark de simulation à événements discrets

Nelson v2.2.3 est sorti — une compétence de coordination multi-agents pour Claude Code qui utilise une métaphore de la Royal Navy (amiral, capitaines, navires, équipage) pour empêcher les agents parallèles de marcher sur les plates-bandes des autres. Sous licence MIT, ~300 étoiles sur GitHub.
Installation
Exécutez ces commandes dans Claude Code :
/plugin marketplace add aspegio/nelson
/plugin install nelson@nelson
Utilise Nelson pour me construire un jeu de bataille navale.Observez ensuite l'amiral, les capitaines et les navires se coordonner.
Résultats du benchmark
La véritable nouvelle est un benchmark construit par le même auteur. Il teste 13 combinaisons de modèle, CLI et compétence sur une tâche de simulation à événements discrets (débit synthétique d'une mine). Scores de qualité (sur 100) :
- ouroboros-max-thinking (opus-4-7) : 97
- plan-mode (opus-4-7) : 96
- agent-teams-nelson-max-thinking (opus-4-7) : 95
- superpowers-max-thinking (opus-4-7) : 94
- max-thinking (opus-4-7) : 92
- vanilla-max (sonnet-4-6) : 85
- xhigh (gpt-5-5, codex) : 85
- customtools (gemini-3.1-pro) : 81
Point clé : nelson a perdu face à ouroboros et plan-mode de 1 à 2 points mais a battu superpowers de 1 point, vanilla max-thinking de 3 points, et sonnet sans réflexion de 10 points. Plan-mode (sans compétences) a pris la deuxième place — les compétences sélectionnées n'ont pas creusé un écart important. Le modèle et l'activation de la réflexion ont compté bien plus que le choix de la compétence.
Limitations : n=1 tâche, qualité notée par rapport à une grille écrite par l'auteur de Nelson, pas encore de métrique combinée coût/précision.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Argus : Une application GitHub qui examine les fichiers CLAUDE.md et publie les scores sur les PRs
Argus est une application GitHub créée avec Claude Code qui examine les fichiers CLAUDE.md et publie un score sur chaque demande de tirage. Après des tests sur plusieurs dépôts, les échecs les plus courants sont l'absence de limites de portée explicites et de chemins d'escalade.

Implémentation de l'Agent Local OpenClaw avec Cache TurboQuant pour Matériel de Gamme Moyenne
Une application en un clic pour OpenClaw avec des modèles locaux fonctionne désormais sur des appareils d'entrée de gamme comme le MacBook Air avec 16 Go de RAM grâce au cache TurboQuant et au préchauffage du contexte. L'implémentation corrige llama.cpp pour un appel d'outils fiable et atteint 10-15 jetons par seconde avec Gemma 4 et QWEN 3.5.

Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0
Les agents OpenClaw subissent une perte de mémoire due à la compaction de contexte qui réécrit des fichiers comme MEMORY.md. Le plugin Mem0 résout ce problème en déplaçant la mémoire hors de la fenêtre de contexte avec des fonctionnalités de rappel automatique et de capture automatique.

Aperçu comparatif de l'inférence rapide des LLM par Anthropic et OpenAI
Anthropic et OpenAI ont publié des fonctionnalités distinctes de 'mode rapide' pour une inférence LLM plus rapide, OpenAI exploitant les puces Cerebras pour une vitesse accrue