Examen de sécurité multi-agent exécuté quotidiennement en production : architecture et résultats

Détails de l'architecture
L'agent de sécurité s'exécute quotidiennement via un cron launchd. Il reçoit un diff des commits récents ainsi qu'un accès complet au codebase. Il vérifie les éléments selon une liste de contrôle structurée des vulnérabilités qui inclut :
- IDOR
- Contournements d'authentification
- Vecteurs d'injection
- Exposition de secrets
- Routes trop permissives
L'agent classe les découvertes en tâches P0/P1/P2 dans la file d'attente de travail. Un agent de codage distinct les récupère, les corrige, commit les modifications et déploie.
Défis de coordination et solutions
Après 3 semaines d'exécution en production, le défi de coordination le plus intéressant a été les conflits entre l'agent de sécurité et l'agent de codage. La sécurité signale quelque chose, le codage le corrige, mais introduit ensuite un motif dans le commit suivant que la sécurité n'a pas encore examiné.
La solution mise en œuvre : exécutions uniquement quotidiennes (pas par commit) plus un marqueur "reviewed_through" pour que les découvertes aient un contexte de commit.
Observations de performance
Claude s'est révélé particulièrement doué pour distinguer "cela semble vulnérable" de "cela est définitivement exploitable dans ce contexte". Le taux de faux positifs est resté gérable.
Le système fait partie d'une configuration multi-agents plus large chez ultrathink.art qui inclut la conception, le codage, le marketing, les opérations, les réseaux sociaux et l'agent de sécurité dédié.
📖 Lire la source complète : r/clawdbot
👀 See Also

Utilisateur d'OpenClaw partage l'architecture d'un système de production à 43 agents
Un cabinet de conseil en branding avec plus de 1 000 clients utilise depuis plusieurs mois un système OpenClaw de 43 agents en production, présentant une architecture en couches avec des agents spécialisés dans les fonctions de commande, renseignement, contenu, technologie et vente.

L'agent IA RunLobster construit un tableau de bord fonctionnel à partir d'une demande en langage naturel.
Un développeur rapporte que RunLobster a construit et déployé un tableau de bord complet avec intégration Stripe et système d'authentification en réponse à une seule commande en langage naturel, réalisant en quelques minutes ce qui prendrait normalement plusieurs jours.

L'agent Forge corrige de manière autonome un bug GitHub en utilisant l'IA Claude.
L'agent Forge d'un développeur a détecté un rapport de bug GitHub, a déclenché un pipeline, a utilisé Claude AI pour analyser et corriger le problème, et a ouvert une PR—le tout sans intervention humaine pendant que le développeur dormait.

Développeur Homelab Évalue 19 LLM Locaux avec 45 Tests Pratiques sur AMD Strix Halo
Un développeur a créé une suite de 45 tests de référence pour les LLM locaux basée sur des cas d'utilisation réels de laboratoire domestique, comme la classification d'e-mails, l'automatisation Home Assistant et la planification de repas. En testant 19 modèles sur un AMD Strix Halo avec 128 Go de RAM et 96 Go de VRAM, Gemma 4 26B-A4B a obtenu les meilleurs résultats après correction de bugs.