IronBee : Couche de vérification open-source pour Claude Code et Cursor

Ce que fait IronBee
IronBee est une couche de vérification open source qui installe des crochets dans Claude Code (et fonctionne également avec Cursor) pour empêcher les agents de codage IA de livrer du code non testé. L'outil résout un problème courant où Claude Code affirme avec assurance "J'ai implémenté la fonctionnalité" sans vérifier si cela fonctionne réellement dans le navigateur.
Fonctionnalités principales
- Bloque l'achèvement de la tâche jusqu'à ce que l'agent teste les modifications dans un véritable navigateur
- Suivre chaque modification de fichier, appel d'outil de navigateur et tentative de vérification
- Oblige l'agent à soumettre des verdicts structurés (pas seulement "ça a l'air bon")
- Force l'agent à corriger et revérifier en cas d'échec
- Utilise le serveur MCP browser-devtools pour que Claude Code puisse naviguer sur les pages, cliquer sur des boutons, remplir des formulaires, prendre des captures d'écran et vérifier les erreurs de console
- Inclut
/ironbee-verifyavec différents modes (par défaut, complet, visuel, fonctionnel) - Inclut
/ironbee-analyzepour les analyses de session montrant le temps passé à coder vs à corriger, les fichiers problématiques et l'amélioration de l'agent au fil du temps
Données de performance
Selon la source, le suivi des sessions a révélé que 82 % comportaient des bugs que Claude Code aurait livrés sans vérification, avec un taux de réussite du premier passage de seulement 18 %. Lors des tests, IronBee a détecté et corrigé chaque bug avant sa livraison.
Configuration
L'installation nécessite deux commandes :
npm install -g @ironbee-ai/cli
cd your-project
ironbee installInformations sur la source
Article de blog d'annonce : https://medium.com/@serkan_ozal/introducing-ironbee-the-verification-and-intelligence-layer-for-ai-coding-agents-dd554279efa3
Dépôt GitHub : https://github.com/ironbee-ai/ironbee-cli
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Utilisateur de Reddit expérimente avec des agents de codage apprenant de l'échec pour rompre les boucles de réessai.
Un développeur sur r/LocalLLaMA décrit des expériences avec des agents de codage qui apprennent des échecs en stockant des causes racines simplifiées et en associant des correctifs, réduisant ainsi les boucles d'erreur répétitives.

EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle
EvalShift est un CLI Python sous licence MIT qui compare les sorties des LLM source et cible sur des invites, des agents et des workflows d'appel d'outils, générant un rapport de régression HTML local.

Création d'un Guide de Style Rédactionnel Auto-Mise à Jour pour un Contenu Assisté par l'IA
Une équipe développant une plateforme d'extraction vocale appelée Noren a créé un guide de style Markdown de 117 lignes qui se réécrit après chaque publication, utilisant Claude pour faire respecter les règles et bannir les mots typiques de l'IA comme 'cadence' et 'optimize'.

Stagent : Couche opérationnelle open-source pour le SDK Agent Claude avec gouvernance locale et orchestration de flux de travail
Stagent est un espace de coordination open-source, local-first, construit sur le SDK Agent Claude et l'API Claude, qui fournit l'orchestration des workflows, des garde-fous budgétaires et une gouvernance avec intervention humaine pour les agents IA. Il comprend 15 interfaces produit, 6 modèles de workflow, plus de 52 profils d'agents réutilisables, et fonctionne entièrement en local avec SQLite.