OmniCoder-9B 8GB VRAM 파인튜닝: Qwen3.5 기반 에이전트 코딩 성능

OpenCode로 OmniCoder-9B 테스트 성능 결과

r/LocalLLaMA의 한 사용자가 Opus 트레이스로 훈련된 Qwen3.5-9B의 파인튜닝 모델인 OmniCoder-9B를 테스트했으며, 제한된 VRAM을 가진 시스템에서 에이전트 코딩 작업에 잘 작동한다고 보고했습니다. 이 모델은 Hugging Face에서 Tesslate/OmniCoder-9B로 이용 가능합니다.

기술 설정 및 구성

사용자는 다음 명령어로 ik_llama를 사용하여 Q4_K_M GGUF 양자화를 실행했습니다:

ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0

이 구성으로 약 초당 40개의 토큰을 달성했습니다. 사용자는 64,000 컨텍스트 길이의 Q5_KS 양자화가 비슷한 속도를 제공한다고 언급했습니다.

OpenCode 구성

테스트에 사용된 OpenCode 구성:

"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }

사용자는 전체 프롬프트 재처리를 유발할 수 있는 잠재적 버그를 조사 중이라고 언급했습니다.

배경 및 비교

이 테스트는 상용 AI 코딩 도구의 할당량 제한 및 가격 변경에 대한 우려에서 비롯되었습니다. 사용자는 특히 8GB VRAM을 가지고 있어, 일반적으로 에이전트 코딩에 적합한 속도로 우수한 오픈소스 모델을 실행하는 능력이 제한된다고 언급했습니다. MOE 모델이 더 나은 성능을 제공할 수 있지만 속도가 상당히 느리다고 지적했습니다.

📖 Read the full source: r/LocalLLaMA