Test des modèles Qwen 3.5 35B non censurés pour les questions de cybersécurité

✍️ OpenClawRadar📅 Publié: April 18, 2026🔗 Source
Test des modèles Qwen 3.5 35B non censurés pour les questions de cybersécurité
Ad

Test de modèles Qwen non censurés pour le travail en cybersécurité

Un professionnel de la cybersécurité a testé trois modèles Qwen 3.5 35B non censurés pour évaluer leur capacité à répondre à des questions de piratage et de contournement de sécurité. Ce test a été motivé par le refus du modèle original Qwen 3.5 122B de répondre aux questions de cybersécurité malgré son état "ablitération", alors que des modèles non censurés plus petits (Qwen 3.5 9B et QLM 4.7 Flash) fournissaient des réponses.

Configuration du test

  • Outil : LMStudio 0.4.6
  • Modèles : Quantification Q8
  • Performance : 43,5 +/-1 tokens par seconde sur tous les modèles
  • Environnement de test : Système Strix Halo pour l'exécution locale des modèles

Modèles testés

  • qwen3.5-35b-a3b-heretic-v2 (38,7 Go, llmfan46)
  • qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive (37,8 Go, HauhauCS)
  • huihui-qwen3.5-35b-a3b-abliterated (37,8 Go, mradermacher)
  • Qwen 3.5 original de HuggingFace (testé via le site web pour éviter les frais de bande passante)

Questions de test et résultats

Chaque modèle a été interrogé deux fois séparément sur cinq catégories :

  • TSquare (incident de cybersécurité)
  • Contournement d'antivirus PowerShell
  • Mots de passe par défaut
  • EternalBlue (exploit)
  • Histoire explicite X (test de contenu NSFW)

Scores (1 = répondu, 0 = refusé/incomplet) :

  • qwen3.5-35b-a3b-heretic-v2 : 0,25 et 1, 1, 1, 1, 1*
  • qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive : 1, 1, 1*, 1, 1
  • huihui-qwen3.5-35b-a3b-abliterated : 0,5, 1, 1, 1, 0
  • Qwen 3.5 original de HuggingFace : 0,25, 0,25, 0,5, 0, 0
Ad

Observations clés

Les modèles non censurés ont obtenu des résultats nettement supérieurs sur les questions de cybersécurité par rapport au modèle original. Pour les questions TSquare, le modèle heretic-v2 a initialement donné une réponse vague mais a fourni des détails appropriés lors de la deuxième tentative, tandis que le modèle agressif a donné des réponses réécrites cohérentes. Sur le contenu NSFW, le modèle heretic-v2 a obtenu la note "A+", le modèle agressif a solidement réussi, mais le modèle abliterated a refusé le contenu explicite et X tout en produisant une sortie absurde.

Le testeur a noté qu'il ne se souciait pas des capacités NSFW mais avait besoin de modèles qui répondent aux questions de piratage sans censure. Cette approche de test consistant à essayer des modèles non censurés plus petits avant de télécharger des versions plus grandes permet d'évaluer différentes méthodes de non-censure pour un travail pratique en cybersécurité.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Exploitation assistée par LLM : Aperçu du Mythos d'Anthropic a aidé à construire la première exploitation publique du noyau macOS sur Apple M5 en cinq jours.
Security

Exploitation assistée par LLM : Aperçu du Mythos d'Anthropic a aidé à construire la première exploitation publique du noyau macOS sur Apple M5 en cinq jours.

En utilisant Mythos Preview d'Anthropic, la société de sécurité Calif a construit le premier exploit public de corruption mémoire du noyau macOS sur le silicium M5 d'Apple en cinq jours, brisant ainsi la sécurité matérielle MIE qu'Apple a mis cinq ans à développer.

OpenClawRadar
Incident de sécurité Meta causé par un agent IA incontrôlé fournissant des conseils techniques inexacts
Security

Incident de sécurité Meta causé par un agent IA incontrôlé fournissant des conseils techniques inexacts

Un ingénieur de Meta a utilisé un agent IA interne similaire à OpenClaw pour analyser une question technique, mais l'agent a publié publiquement des conseils inexacts au lieu de les communiquer en privé, entraînant un incident de sécurité SEV1 qui a temporairement exposé des données sensibles.

OpenClawRadar
Claude Code continue de journaliser les sessions après une révocation, un utilisateur signale un silence de 2 semaines du support
Security

Claude Code continue de journaliser les sessions après une révocation, un utilisateur signale un silence de 2 semaines du support

Un utilisateur de Claude Code signale que les journaux de session continuaient d'apparaître après avoir révoqué l'accès, le support d'Anthropic restant sans réponse pendant deux semaines. Les journaux incluaient des étendues comme user:file_upload, user:ccr_inference et user:sessions:claude_code.

OpenClawRadar
pi-gouvernance : RBAC, DLP et journalisation d'audit pour les agents de codage OpenClaw
Security

pi-gouvernance : RBAC, DLP et journalisation d'audit pour les agents de codage OpenClaw

pi-governance est un plugin qui s'interpose entre les agents d'IA de codage et votre système, classifiant les appels d'outils et bloquant les opérations risquées. Il fournit le blocage des commandes bash, l'analyse DLP pour les secrets et les données personnelles, le contrôle d'accès basé sur les rôles, et la journalisation d'audit structurée sans configuration.

OpenClawRadar