OmniCoder-9B 로컬 실행: llama.cpp 설정으로 HumanEval 96.7%

하드웨어 및 모델 설정

이 설정은 중급 사양 하드웨어를 사용합니다: AMD Ryzen 9 5900X CPU(추론에 12스레드 사용), 62GB DDR4 RAM, NVIDIA RTX 3080(10GB VRAM), NVMe SSD, 원격 서버의 Ubuntu 22.04.

모델은 OmniCoder-9B로, Qwen3.5-9B를 기반으로 Tesslate가 425,000개 이상의 코딩 에이전트 트랙을 파인튜닝했습니다. Q6_K 양자화(6.85GB 파일 크기)와 128K 토큰 컨텍스트 창을 사용하며, HuggingFace에서 가져왔습니다.

llama.cpp 구성

모델은 다음과 같은 특정 플래그로 llama.cpp 서버를 통해 실행됩니다:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

주요 매개변수 설명:

--ctx-size 131072: 대규모 코드베이스를 위한 128K 컨텍스트 창
--n-gpu-layers 99: 모든 레이어를 GPU로 오프로드
--cache-type-k q8_0 --cache-type-v q4_0: 10GB VRAM에 128K 컨텍스트를 맞추기 위한 압축 KV 캐시
--threads 12: 물리적 코어 수와 일치(하이퍼스레딩 제외)
--flash-attn on: 더 빠른 어텐션 계산
--reasoning-budget 0: reasoning_content 필드에서 체인 오브 씽킹 출력을 비활성화하여 모델이 직접 코드를 출력하도록 함

성능 및 테스트

성능 지표: 프롬프트 평가 ~300 토큰/초, 생성 ~80-90 토큰/초, VRAM 사용량 ~8.5GB/10GB, 일반적인 코딩 작업 지연 시간 1-5초.

테스트는 자율 에이전트 프레임워크인 Agent Zero가 주 뇌로 GLM-5를 사용해 수행했습니다. Agent Zero는 --reasoning-budget 0 플래그를 발견하고, 원격 서버에 SSH로 접속해 systemd 서비스를 업데이트하고, 처음부터 벤치마크 스크립트를 생성하고, 여러 벤치마크(HumanEval base, HumanEval Pro, MBPP, MultiPL-E)를 실행하며, 프롬프트 엔지니어링을 반복했습니다.