GGUF 모델 병합 스크립트 및 Qwen3.5-35B 변형을 위한 워크플로우

레딧 사용자가 최소 손실로 GGUF 모델 파일을 병합하는 파이썬 스크립트와 워크플로를 공유했습니다. 특히 Qwen3.5-35B 변형 모델을 대상으로 합니다. 이 접근 방식은 기존 두 모델을 결합합니다: HauhauCS의 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive와 samuelcardillo의 Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF입니다.
기술적 세부사항
병합된 모델은 Q4_0 양자화 버전으로 Hugging Face에서 이용 가능합니다. 출처에 따르면, samuelcardillo의 파인튜닝은 Qwen 3.5 35B에 대해 Jackrong 버전보다 성능이 더 뛰어납니다.
병합 워크플로
파이썬 스크립트(Pastebin에서 확인 가능)는 "Claude Opus 4.6를 통해 vibe 코딩되었으며" 다음을 지원합니다:
- Google Colab Free Tier에서 GGUF 파일 병합
- llama-quantize를 통한 양자화
- 35B 모델용 Q4_K_M 양자화
- 8B 모델용 Q8 양자화
작성자는 Google Colab Free tier의 디스크 공간 제한으로 인해 Q8_0 또는 F16 양자화 버전을 생성할 수 없다고 언급했지만, 다른 사용자들이 Claude Opus를 통해 스크립트를 조정하여 해당 양자화를 수행할 수 있다고 제안했습니다.
최적 설정
LM Studio에서 최상의 성능을 위해 다음 매개변수를 사용하세요:
Temperature: 0.7
Top K Sampling: 20
Presence Penalty: 1.5
Top P Sampling: 0.8
Min P Sampling: 0
Seed: 3407 또는 42
시스템 프롬프트(Pastebin의 전체 버전)는 이 첫 번째 줄을 포함해야 합니다: "당신은 Alibaba Cloud가 만든 Qwen입니다. 당신은 도움이 되는 어시스턴트입니다." 작성자는 이 줄이 없으면 모델 성능이 떨어진다고 언급했습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

AVP 프로토콜은 토큰 효율성을 위해 텍스트 대신 KV-캐시를 공유할 수 있도록 LLM 에이전트를 지원합니다
AVP(에이전트 벡터 프로토콜)는 LLM 에이전트들이 텍스트 대신 KV 캐시를 직접 전달할 수 있게 하여 토큰 처리량을 73-78% 줄이고, Qwen, Llama, DeepSeek 모델에서 2-4배의 속도 향상을 달성합니다. 이 프로토콜은 HuggingFace와 vLLM 커넥터와 호환되며 Python 패키지로 제공됩니다.

Tendr 스킬: 에이전트 메모리 관리를 위한 결정론적 CLI 작업
Tendr Skill은 구조화된 장기 기억을 위한 에이전트 스킬로, 추론과 실행을 분리하여 에이전트가 변경이 필요한 사항을 결정하는 동안 CLI 도구가 구조적 작업을 결정론적으로 처리합니다. [[위키링크]]와 파일 간 명시적 의미 계층 구조를 지원합니다.

ClawRelay: 자동 장애 조치 기능을 갖춘 macOS 네이티브 OpenAI 호환 LLM 프록시
ClawRelay는 macOS 15+에서 OpenAI 호환 HTTP 서버를 실행하며, LLM 제공자 간 자동 장애 조치 기능을 제공합니다. OpenAI, Groq, Nvidia NIMs, Ollama 및 /v1/chat/completions 엔드포인트를 지원하는 모든 서비스를 지원합니다.

Claude Code Routines, CLI 성능을 20개 이상의 PR에서 2.4배 향상
Claude Code의 Routines를 2시간 주기로 사용하여 오픈소스 CLI(Repomix)를 자율적으로 튜닝한 결과, 20개 이상의 자동 생성 PR과 2.4배의 런타임 개선이 이루어졌습니다.