OmniCoder-9B 파인튜닝은 8GB VRAM 시스템에서 에이전트 코딩에 강력한 성능을 보여줍니다.

OpenCode로 OmniCoder-9B 테스트 성능 결과
r/LocalLLaMA의 한 사용자가 Opus 트레이스로 훈련된 Qwen3.5-9B의 파인튜닝 모델인 OmniCoder-9B를 테스트했으며, 제한된 VRAM을 가진 시스템에서 에이전트 코딩 작업에 잘 작동한다고 보고했습니다. 이 모델은 Hugging Face에서 Tesslate/OmniCoder-9B로 이용 가능합니다.
기술 설정 및 구성
사용자는 다음 명령어로 ik_llama를 사용하여 Q4_K_M GGUF 양자화를 실행했습니다:
ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0
이 구성으로 약 초당 40개의 토큰을 달성했습니다. 사용자는 64,000 컨텍스트 길이의 Q5_KS 양자화가 비슷한 속도를 제공한다고 언급했습니다.
OpenCode 구성
테스트에 사용된 OpenCode 구성:
"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }사용자는 전체 프롬프트 재처리를 유발할 수 있는 잠재적 버그를 조사 중이라고 언급했습니다.
배경 및 비교
이 테스트는 상용 AI 코딩 도구의 할당량 제한 및 가격 변경에 대한 우려에서 비롯되었습니다. 사용자는 특히 8GB VRAM을 가지고 있어, 일반적으로 에이전트 코딩에 적합한 속도로 우수한 오픈소스 모델을 실행하는 능력이 제한된다고 언급했습니다. MOE 모델이 더 나은 성능을 제공할 수 있지만 속도가 상당히 느리다고 지적했습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

클로드 코드 v2.1.59는 자동 메모리 기능, 복사 명령어, 그리고 셸 개선 사항을 추가했습니다.
Claude Code v2.1.59은 자동 메모리 관리에 대한 자동 컨텍스트 저장 기능을 /memory 명령어로 도입하고, 인터랙티브 코드 블록 선택을 위한 /copy 명령어를 추가하며, 복합 bash 명령어에 대한 접두사 제안 기능을 개선했습니다.

ApexClaw: 웹 자동화, 음성 및 이메일을 위한 85개 이상의 도구를 갖춘 오픈소스 텔레그램 AI 에이전트
ApexClaw는 Go로 작성된 오픈소스 Telegram AI 에이전트로, 헤드리스 Chrome을 이용한 웹 브라우징, 음성 노트 처리, Gmail 통합, 셸 스크립트 실행을 포함한 85개 이상의 내장 도구를 제공합니다. 자체 호스팅 방식이며 추론을 위해 z.ai 엔진을 사용합니다.

클로디우스: 클로드용 오픈소스 임베디드 AI 채팅 위젯
Claudius는 Claude로 구동되는 오픈소스, 셀프 호스팅 채팅 위젯으로, 하나의 스크립트 태그로 어떤 웹사이트에든 임베드할 수 있습니다. React 프론트엔드와 함께 Cloudflare Workers에서 실행되며, 커스텀 시스템 프롬프트, 속도 제한, 접근성 준수 등의 기능을 포함합니다.

Monarch v3: NES-Inspired KV Paging for 78% Faster LLM Inference
Monarch v3 implements NES-inspired memory paging for transformers, achieving 78% faster inference (17.01 to 30.42 tok/sec) on a 1.1B parameter model with nearly zero VRAM overhead. The open-source algorithm splits KV cache into hot and cold regions with compression and promotion mechanisms.