FORGE : Cadre de test de sécurité IA open source pour les systèmes LLM

FORGE (Framework for Orchestrated Reasoning & Generation of Engines) est un cadre de test de sécurité IA autonome open source pour les systèmes LLM qui fonctionne 24h/24 et 7j/7 et couvre les vulnérabilités OWASP LLM Top 10.
Caractéristiques principales
- Construit ses propres outils en cours d'exécution — génère des modules Python personnalisés sur place lorsqu'il rencontre des vulnérabilités inconnues
- Se réplique en essaim — crée des copies de sous-processus qui partagent un esprit collectif en temps réel
- Apprend de chaque session — utilise SQLite pour stocker les motifs, l'IA évalue les découvertes, et les algorithmes génétiques font évoluer ses propres prompts
- Pentesting IA par IA — 7 modules couvrant les vulnérabilités OWASP LLM Top 10
- Honeypot — point de terminaison IA vulnérable factice qui capture les attaquants et classe s'ils sont humains ou agents IA
- Surveillance 24h/24 — surveille l'IA en production, alerte sur les pics de latence, les rafales d'attaques et les tentatives d'injection via webhook Slack/Discord
- Testeur de stress — test de résistance OWASP LLM04 DoS avec tableau de bord TPS en direct et note de A à F
- Fonctionne sur n'importe quel modèle — Claude, Llama, Mistral, DeepSeek, GPT-4, Groq, n'importe lequel — une variable d'environnement pour changer
Couverture OWASP LLM Top 10
- LLM01 Injection de Prompt → prompt_injector + jailbreak_fuzzer (125 charges utiles)
- LLM02 Sortie Insecure → rag_leaker
- LLM04 DoS du Modèle → overloader (8 modes de stress)
- LLM06 Divulgation Sensible → system_prompt_probe + rag_leaker
- LLM07 Plugin Insecure → agent_hijacker
- LLM08 Agence Excessive → agent_hijacker
- LLM10 Vol de Modèle → model_fingerprinter
Installation et Utilisation
Commandes d'installation :
git clone https://github.com/umangkartikey/forge
cd forge
pip install anthropic rich
export ANTHROPIC_API_KEY=your_keyExécuter avec Ollama local gratuitement :
FORGE_BACKEND=ollama FORGE_MODEL=llama3.1 python forge.pyL'outil aborde les lacunes de sécurité LLM courantes : la plupart des applications IA déployées aujourd'hui n'ont jamais été testées en équipe rouge, les prompts système sont entièrement extractibles, les jailbreaks fonctionnent, les pipelines RAG fuient, et l'injection de prompt indirecte via les sorties d'outils est presque universellement non protégée. FORGE automatise la recherche de ces vulnérabilités de la même manière qu'un testeur humain en équipe rouge le ferait, mais plus rapidement et fonctionnant 24h/24 et 7j/7.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Skill Analyzer désormais disponible sur ClawHub avec une installation en une commande
L'analyseur de sécurité OpenClaw Skill Analyzer est désormais disponible sur ClawHub avec une installation en une seule commande. L'outil analyse les dossiers de compétences à la recherche de modèles malveillants comme l'injection de prompt et le vol d'identifiants, et inclut le support de bac à sable Docker pour une exécution sécurisée.

L'architecture Zero-Trust OpenClaw intègre une autorisation pré-exécution et une vérification post-exécution.
Une architecture open source pour OpenClaw ajoute deux points de contrôle de sécurité : un sidecar Rust qui intercepte les appels d'outils avant exécution avec une surcharge d'autorisation inférieure à la milliseconde, et une vérification déterministe post-exécution utilisant des assertions au lieu du jugement d'un LLM. Le système inclut un traçage avec des instantanés DOM et des captures d'écran, plus une compétence de compression DOM qui réduit l'utilisation de tokens de 90 à 99 %.

Correction architecturale pour la sur-centralisation des agents IA : séparation de la mémoire, de l'exécution et des actions sortantes
Un développeur a réalisé que son assistant IA devenait un 'autocrate interne' en gérant la mémoire à long terme, l'accès aux outils et les décisions autonomes dans un seul composant. La solution a consisté à séparer le système en trois rôles : contrôleur privé, travailleurs à portée limitée et porte de sortie.

Claude met en place une vérification d'identité pour certains cas d'utilisation.
Anthropic déploie la vérification d'identité pour Claude via Persona Identities, exigeant des pièces d'identité officielles avec photo et des selfies en direct. Le processus de vérification prend moins de cinq minutes et vise à prévenir les abus et à se conformer aux obligations légales.