로컬에서 llama.cpp 구성 세부 정보로 OmniCoder-9B 실행하기

하드웨어 및 모델 설정
이 설정은 중급 사양 하드웨어를 사용합니다: AMD Ryzen 9 5900X CPU(추론에 12스레드 사용), 62GB DDR4 RAM, NVIDIA RTX 3080(10GB VRAM), NVMe SSD, 원격 서버의 Ubuntu 22.04.
모델은 OmniCoder-9B로, Qwen3.5-9B를 기반으로 Tesslate가 425,000개 이상의 코딩 에이전트 트랙을 파인튜닝했습니다. Q6_K 양자화(6.85GB 파일 크기)와 128K 토큰 컨텍스트 창을 사용하며, HuggingFace에서 가져왔습니다.
llama.cpp 구성
모델은 다음과 같은 특정 플래그로 llama.cpp 서버를 통해 실행됩니다:
llama-server \ --model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \ --host 0.0.0.0 --port 8080 \ --ctx-size 131072 \ --n-gpu-layers 99 \ --cache-type-k q8_0 \ --cache-type-v q4_0 \ --threads 12 \ --batch-size 128 \ --flash-attn on \ --temp 0.4 \ --top-k 20 \ --top-p 0.95 \ --jinja \ --reasoning-budget 0
주요 매개변수 설명:
--ctx-size 131072: 대규모 코드베이스를 위한 128K 컨텍스트 창--n-gpu-layers 99: 모든 레이어를 GPU로 오프로드--cache-type-k q8_0 --cache-type-v q4_0: 10GB VRAM에 128K 컨텍스트를 맞추기 위한 압축 KV 캐시--threads 12: 물리적 코어 수와 일치(하이퍼스레딩 제외)--flash-attn on: 더 빠른 어텐션 계산--reasoning-budget 0: reasoning_content 필드에서 체인 오브 씽킹 출력을 비활성화하여 모델이 직접 코드를 출력하도록 함
성능 및 테스트
성능 지표: 프롬프트 평가 ~300 토큰/초, 생성 ~80-90 토큰/초, VRAM 사용량 ~8.5GB/10GB, 일반적인 코딩 작업 지연 시간 1-5초.
테스트는 자율 에이전트 프레임워크인 Agent Zero가 주 뇌로 GLM-5를 사용해 수행했습니다. Agent Zero는 --reasoning-budget 0 플래그를 발견하고, 원격 서버에 SSH로 접속해 systemd 서비스를 업데이트하고, 처음부터 벤치마크 스크립트를 생성하고, 여러 벤치마크(HumanEval base, HumanEval Pro, MBPP, MultiPL-E)를 실행하며, 프롬프트 엔지니어링을 반복했습니다.
벤치마크 결과
공식 주장과 비교한 벤치마크 결과:
- HumanEval base: 공식 92.7%, 실행 1: 100%, 실행 2: 95%, 실행 3: 95%, 평균: 96.7%
- HumanEval Pro: 공식 70.1%, 실행 1: 70%, 평균: 70%
HumanEval base 평균 점수 96.7%는 공식 92.7%를 초과하며, HumanEval Pro는 정확히 70%로 일치합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

클로드 코드 LSP 설정 가이드: 구조적 코드 이해
레딧 게시물은 구조적 코드 이해를 위해 텍스트 매칭 대신 Language Server Protocol을 사용하도록 Claude Code를 구성하는 방법을 설명하며, 정의로 이동, 참조 찾기, 호출 계층 구조 기능으로 쿼리 시간을 30-60초에서 ~50ms로 줄입니다.

오픈소스 LLM 및 로컬 AI 프로젝트를 위한 오픈소스 런치 플레이북
오픈소스 플레이북은 LLM 및 로컬 AI 프로젝트의 발견 가능성 문제를 해결하기 위해 출시 전 준비, 출시일 실행, 출시 후 후속 조치에 대한 체계적인 지침을 제공합니다. 커뮤니티 배포, 크리에이터 아웃리치, SEO 최적화를 위한 템플릿과 전략을 포함합니다.

OpenClaw 제어 UI 연결 문제 해결
Hostinger VPS에서 OpenClaw를 사용할 때 발생하는 'Disconnected (1008): control ui requires HTTPS or localhost' 오류를 해결하는 방법을 알아보세요.

OpenClaw 작업 공간 구성: 두 달 사용 후 얻은 교훈
OpenClaw 개발자의 경험에 따르면 작업 공간 품질이 에이전트 성능에 5-10배 영향을 미치며, SOUL.md, AGENTS.md, MEMORY.md, USER.md 및 스킬 구성에 대한 구체적인 지침이 제공됩니다.