Testen von unzensierten Qwen 3.5 35B-Modellen für Cybersicherheitsfragen

Test unzensierter Qwen-Modelle für Cybersicherheitsarbeit
Ein Cybersicherheitsexperte testete drei unzensierte Qwen 3.5 35B-Modelle, um ihre Fähigkeit zur Beantwortung von Hacking- und Sicherheitsumgehungsfragen zu bewerten. Der Test wurde angeregt, weil das ursprüngliche Qwen 3.5 122B-Modell trotz "Abliteration" die Beantwortung von Cybersicherheitsfragen verweigerte, während kleinere unzensierte Modelle (Qwen 3.5 9B und QLM 4.7 Flash) Antworten lieferten.
Testaufbau
- Tool: LMStudio 0.4.6
- Modelle: Q8-Quantisierung
- Leistung: 43,5 +/-1 Token pro Sekunde über alle Modelle
- Testumgebung: Strix Halo-System für lokale Modellausführung
Getestete Modelle
qwen3.5-35b-a3b-heretic-v2(38,7 GB, llmfan46)qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive(37,8 GB, HauhauCS)huihui-qwen3.5-35b-a3b-abliterated(37,8 GB, mradermacher)- HuggingFace original Qwen 3.5 (über Website getestet, um Bandbreitenkosten zu vermeiden)
Testfragen und Ergebnisse
Jedes Modell wurde zweimal separat zu fünf Kategorien befragt:
- TSquare (Cybersicherheitsvorfall)
- PowerShell AV-Umgehung
- Standardpasswörter
- EternalBlue (Exploit)
- Obszöne X-rated Geschichte (NSFW-Inhaltstest)
Punkte (1 = beantwortet, 0 = abgelehnt/unvollständig):
- qwen3.5-35b-a3b-heretic-v2: 0,25 und 1, 1, 1, 1, 1*
- qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive: 1, 1, 1*, 1, 1
- huihui-qwen3.5-35b-a3b-abliterated: 0,5, 1, 1, 1, 0
- HuggingFace original Qwen 3.5: 0,25, 0,25, 0,5, 0, 0
Wichtige Beobachtungen
Die unzensierten Modelle schnitten bei Cybersicherheitsfragen deutlich besser ab als das Originalmodell. Bei TSquare-Fragen lieferte das heretic-v2-Modell zunächst eine vage Antwort, gab aber beim zweiten Versuch korrekte Details, während das aggressive Modell konsistente umgeschriebene Antworten lieferte. Bei NSFW-Inhalten erhielt das heretic-v2-Modell die Note "A+", das aggressive Modell bestand solide, aber das abliterated-Modell lehnte Obszönitäten und X-rated-Inhalte ab und produzierte unsinnige Ausgaben.
Der Tester merkte an, dass ihm NSFW-Fähigkeiten egal sind, er aber Modelle benötigt, die Hacking-Fragen ohne Zensur beantworten. Dieser Testansatz, zuerst kleinere unzensierte Modelle zu testen, bevor größere Versionen heruntergeladen werden, hilft bei der Bewertung verschiedener Entzensierungsmethoden für praktische Cybersicherheitsarbeit.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Clawndom: Ein Sicherheits-Hook für Claude Code zum Blockieren anfälliger npm-Pakete
Ein Entwickler hat Clawndom erstellt, einen Open-Source-Hook für Claude Code, der npm-Pakete vor der Installation gegen die OSV.dev-Schwachstellendatenbank prüft, bekannte anfällige Pakete blockiert und dabei die Autonomie des Agents beibehält.

Agent-Isolationssicherheitsanalyse: Vom Sandbox-freien Ansatz bis hin zu Firecracker-VMs
Analyse, wie Cursor, Claude Code, Devin, OpenAI und E2B Agenten-Workloads isolieren, von keiner Sandbox bis hin zu hardware-isolierten Firecracker-MicroVMs. Container-Runtimes hatten seit 2019 jährlich Escape-CVEs, während Firecracker in sieben Jahren keine Gast-zu-Host-Escapes hatte.

Coldkey: Schlüsselgenerierung und Papier-Backup-Tool für das Post-Quantenzeitalter
Coldkey generiert Post-Quanten-Alter-Schlüssel (ML-KEM-768 + X25519) und erstellt einseitige druckbare HTML-Backups mit QR-Codes zur Offline-Speicherung.

KI-Apps sind fragil: Warum kleine Änderungen Datenisolierung und Berechtigungen zerstören
Entwickler berichten, dass KI-generierte Apps (via Claude Code, Cursor) bei kleinen Änderungen stillschweigend Login, Berechtigungen und Datenisolierung zerstören, weil KI-Modelle das ursprüngliche Systemverständnis wie Besitzregeln nicht verstehen.