로컬에서 llama.cpp 구성 세부 정보로 OmniCoder-9B 실행하기

✍️ OpenClawRadar📅 게시일: March 14, 2026🔗 Source
로컬에서 llama.cpp 구성 세부 정보로 OmniCoder-9B 실행하기
Ad

하드웨어 및 모델 설정

이 설정은 중급 사양 하드웨어를 사용합니다: AMD Ryzen 9 5900X CPU(추론에 12스레드 사용), 62GB DDR4 RAM, NVIDIA RTX 3080(10GB VRAM), NVMe SSD, 원격 서버의 Ubuntu 22.04.

모델은 OmniCoder-9B로, Qwen3.5-9B를 기반으로 Tesslate가 425,000개 이상의 코딩 에이전트 트랙을 파인튜닝했습니다. Q6_K 양자화(6.85GB 파일 크기)와 128K 토큰 컨텍스트 창을 사용하며, HuggingFace에서 가져왔습니다.

llama.cpp 구성

모델은 다음과 같은 특정 플래그로 llama.cpp 서버를 통해 실행됩니다:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

주요 매개변수 설명:

  • --ctx-size 131072: 대규모 코드베이스를 위한 128K 컨텍스트 창
  • --n-gpu-layers 99: 모든 레이어를 GPU로 오프로드
  • --cache-type-k q8_0 --cache-type-v q4_0: 10GB VRAM에 128K 컨텍스트를 맞추기 위한 압축 KV 캐시
  • --threads 12: 물리적 코어 수와 일치(하이퍼스레딩 제외)
  • --flash-attn on: 더 빠른 어텐션 계산
  • --reasoning-budget 0: reasoning_content 필드에서 체인 오브 씽킹 출력을 비활성화하여 모델이 직접 코드를 출력하도록 함
Ad

성능 및 테스트

성능 지표: 프롬프트 평가 ~300 토큰/초, 생성 ~80-90 토큰/초, VRAM 사용량 ~8.5GB/10GB, 일반적인 코딩 작업 지연 시간 1-5초.

테스트는 자율 에이전트 프레임워크인 Agent Zero가 주 뇌로 GLM-5를 사용해 수행했습니다. Agent Zero는 --reasoning-budget 0 플래그를 발견하고, 원격 서버에 SSH로 접속해 systemd 서비스를 업데이트하고, 처음부터 벤치마크 스크립트를 생성하고, 여러 벤치마크(HumanEval base, HumanEval Pro, MBPP, MultiPL-E)를 실행하며, 프롬프트 엔지니어링을 반복했습니다.

벤치마크 결과

공식 주장과 비교한 벤치마크 결과:

  • HumanEval base: 공식 92.7%, 실행 1: 100%, 실행 2: 95%, 실행 3: 95%, 평균: 96.7%
  • HumanEval Pro: 공식 70.1%, 실행 1: 70%, 평균: 70%

HumanEval base 평균 점수 96.7%는 공식 92.7%를 초과하며, HumanEval Pro는 정확히 70%로 일치합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also