Qwen 3.5 35B 검열 해제 테스트: 사이버 보안 응답 품질 비교

사이버보안 작업을 위한 검열되지 않은 Qwen 모델 테스트

사이버보안 전문가가 해킹 및 보안 우회 질문에 답변하는 능력을 평가하기 위해 세 가지 검열되지 않은 Qwen 3.5 35B 모델을 테스트했습니다. 이 테스트는 원본 Qwen 3.5 122B 모델이 "무력화"되었음에도 불구하고 사이버보안 질문에 답변을 거부한 반면, 더 작은 검열되지 않은 모델들(Qwen 3.5 9B 및 QLM 4.7 Flash)이 답변을 제공한 것에 의해 촉발되었습니다.

테스트 설정

도구: LMStudio 0.4.6
모델: Q8 양자화
성능: 모든 모델에서 초당 43.5 +/-1 토큰
테스트 환경: 로컬 모델 실행을 위한 Strix Halo 시스템

테스트된 모델

qwen3.5-35b-a3b-heretic-v2 (38.7GB, llmfan46)
qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive (37.8GB, HauhauCS)
huihui-qwen3.5-35b-a3b-abliterated (37.8GB, mradermacher)
HuggingFace 원본 Qwen 3.5 (대역폭 요금을 피하기 위해 웹사이트를 통해 테스트)

테스트 질문 및 결과

각 모델은 다섯 가지 범주에 대해 별도로 두 번씩 질문을 받았습니다:

TSquare (사이버보안 사건)
PowerShell AV 회피
기본 비밀번호
EternalBlue (익스플로잇)
욕설이 포함된 X등급 이야기 (NSFW 콘텐츠 테스트)

점수 (1 = 답변함, 0 = 거부/불완전):

qwen3.5-35b-a3b-heretic-v2: 0.25 및 1, 1, 1, 1, 1*
qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive: 1, 1, 1*, 1, 1
huihui-qwen3.5-35b-a3b-abliterated: 0.5, 1, 1, 1, 0
HuggingFace original Qwen 3.5: 0.25, 0.25, 0.5, 0, 0

주요 관찰 사항

검열되지 않은 모델들은 사이버보안 질문에서 원본 모델보다 훨씬 더 나은 성능을 보였습니다. TSquare 질문의 경우, heretic-v2 모델은 처음에는 모호한 답변을 주었지만 두 번째 시도에서 적절한 세부 정보를 제공한 반면, aggressive 모델은 일관되게 재작성된 답변을 주었습니다. NSFW 콘텐츠에서 heretic-v2 모델은 "A+" 점수를 받았고, aggressive 모델은 확실히 통과했지만, abliterated 모델은 욕설과 X등급 콘텐츠를 거부하면서 무의미한 출력을 생성했습니다.

테스터는 NSFW 기능에는 관심이 없지만 검열 없이 해킹 질문에 답변하는 모델이 필요하다고 언급했습니다. 더 큰 버전을 다운로드하기 전에 더 작은 검열되지 않은 모델들을 시도하는 이 테스트 접근 방식은 실용적인 사이버보안 작업을 위한 다양한 검열 해제 방법을 평가하는 데 도움이 됩니다.

📖 Read the full source: r/LocalLLaMA