GGUF 모델 병합 스크립트: Qwen3.5-35B + Claude-4.6-Opus 결합

레딧 사용자가 최소 손실로 GGUF 모델 파일을 병합하는 파이썬 스크립트와 워크플로를 공유했습니다. 특히 Qwen3.5-35B 변형 모델을 대상으로 합니다. 이 접근 방식은 기존 두 모델을 결합합니다: HauhauCS의 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive와 samuelcardillo의 Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF입니다.

기술적 세부사항

병합된 모델은 Q4_0 양자화 버전으로 Hugging Face에서 이용 가능합니다. 출처에 따르면, samuelcardillo의 파인튜닝은 Qwen 3.5 35B에 대해 Jackrong 버전보다 성능이 더 뛰어납니다.

병합 워크플로

파이썬 스크립트(Pastebin에서 확인 가능)는 "Claude Opus 4.6를 통해 vibe 코딩되었으며" 다음을 지원합니다:

Google Colab Free Tier에서 GGUF 파일 병합
llama-quantize를 통한 양자화
35B 모델용 Q4_K_M 양자화
8B 모델용 Q8 양자화

작성자는 Google Colab Free tier의 디스크 공간 제한으로 인해 Q8_0 또는 F16 양자화 버전을 생성할 수 없다고 언급했지만, 다른 사용자들이 Claude Opus를 통해 스크립트를 조정하여 해당 양자화를 수행할 수 있다고 제안했습니다.

최적 설정

LM Studio에서 최상의 성능을 위해 다음 매개변수를 사용하세요:

Temperature: 0.7
Top K Sampling: 20
Presence Penalty: 1.5
Top P Sampling: 0.8
Min P Sampling: 0
Seed: 3407 또는 42

시스템 프롬프트(Pastebin의 전체 버전)는 이 첫 번째 줄을 포함해야 합니다: "당신은 Alibaba Cloud가 만든 Qwen입니다. 당신은 도움이 되는 어시스턴트입니다." 작성자는 이 줄이 없으면 모델 성능이 떨어진다고 언급했습니다.

📖 전체 출처 읽기: r/LocalLLaMA

GGUF 모델 병합 스크립트 및 Qwen3.5-35B 변형을 위한 워크플로우

기술적 세부사항

병합 워크플로

최적 설정

👀 See Also

AI 채팅 익스포터: 고화질 Claude 대화 PDF를 위한 크롬 확장 프로그램

Claude Code 에이전트로 GitHub PR 리뷰 자동화하기

커서의 AI 에이전트를 위한 빠른 정규식 검색 접근법

유튜브 대본 MCP가 클로드 연구 작업 흐름을 개선합니다