サイバーセキュリティに関する質問に対する検閲なしのQwen 3.5 35Bモデルのテスト

サイバーセキュリティ作業のための検閲なしQwenモデルのテスト
サイバーセキュリティの専門家が、ハッキングやセキュリティバイパスに関する質問に回答する能力を評価するために、3つの検閲なしのQwen 3.5 35Bモデルをテストしました。このテストは、元のQwen 3.5 122Bモデルが「無力化」されているにもかかわらずサイバーセキュリティの質問に回答を拒否した一方で、より小さな検閲なしモデル(Qwen 3.5 9BおよびQLM 4.7 Flash)が回答を提供したことから実施されました。
テスト設定
- ツール: LMStudio 0.4.6
- モデル: Q8量子化
- パフォーマンス: すべてのモデルで43.5 +/-1トークン/秒
- テスト環境: ローカルモデル実行用のStrix Haloシステム
テストされたモデル
qwen3.5-35b-a3b-heretic-v2(38.7GB, llmfan46)qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive(37.8GB, HauhauCS)huihui-qwen3.5-35b-a3b-abliterated(37.8GB, mradermacher)- HuggingFaceオリジナルQwen 3.5 (帯域幅料金を避けるためウェブサイト経由でテスト)
テスト質問と結果
各モデルに対して、5つのカテゴリーについてそれぞれ2回ずつ質問しました:
- TSquare(サイバーセキュリティインシデント)
- PowerShell AV回避
- デフォルトパスワード
- EternalBlue(エクスプロイト)
- 卑猥なX指定ストーリー(NSFWコンテンツテスト)
スコア(1 = 回答あり、0 = 拒否/不完全):
- qwen3.5-35b-a3b-heretic-v2: 0.25および1, 1, 1, 1, 1*
- qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive: 1, 1, 1*, 1, 1
- huihui-qwen3.5-35b-a3b-abliterated: 0.5, 1, 1, 1, 0
- HuggingFaceオリジナルQwen 3.5: 0.25, 0.25, 0.5, 0, 0
主な観察結果
検閲なしモデルは、サイバーセキュリティの質問に対して元のモデルよりも大幅に優れたパフォーマンスを示しました。TSquareの質問では、heretic-v2モデルは最初は曖昧な回答をしましたが、2回目の試行では適切な詳細を提供し、一方でaggressiveモデルは一貫して書き直された回答を提供しました。NSFWコンテンツでは、heretic-v2モデルは「A+」のスコアを獲得し、aggressiveモデルはしっかりと合格しましたが、abliteratedモデルは卑猥な言葉やX指定コンテンツを拒否し、意味不明な出力を生成しました。
テスト担当者は、NSFW機能については気にしないが、検閲なしでハッキングの質問に回答するモデルが必要であると述べています。このテストアプローチでは、より大きなバージョンをダウンロードする前に小さな検閲なしモデルを試すことで、実用的なサイバーセキュリティ作業のためのさまざまな検閲解除方法を評価するのに役立ちます。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Smart Bash Permission Hook for Claude Code Prevents Compound Command Bypass
A Python PreToolUse hook addresses a security gap in Claude Code's permission system where compound bash commands could bypass allow/deny patterns. The script decomposes commands into sub-commands and checks each individually against existing permission rules.

protobuf.jsライブラリにおける重大なRCE脆弱性
protobuf.jsバージョン8.0.0/7.5.4以前における重大なリモートコード実行脆弱性により、悪意のあるスキーマを通じてJavaScriptコードの実行が可能となります。バージョン8.0.1および7.5.5で修正パッチが提供されています。

ゼロトラスト・オープンクローアーキテクチャは、実行前認可と実行後検証を追加します。
OpenClawのオープンソースアーキテクチャは、2つのセキュリティチェックポイントを追加します:実行前にツール呼び出しをインターセプトし、サブミリ秒の認可オーバーヘッドを実現するRustサイドカーと、LLMの判断ではなくアサーションを使用した決定論的な実行後検証です。システムには、DOMスナップショットとスクリーンショットによるトレーシング、さらにトークン使用量を90-99%削減するDOM圧縮スキルが含まれています。

Bitwarden Agent Access SDKは、安全な認証情報の注入のためにOneCLIと統合します。
Bitwardenの新しいAgent Access SDKは、AIエージェントが人間の承認を得てBitwardenのボールトから認証情報にアクセスできるようにし、OneCLIはネットワーク層で認証情報を注入し、生の値をエージェントに公開しないゲートウェイとして機能します。