Executando OmniCoder-9B Localmente: Configuração llama.cpp

Configuração de Hardware e Modelo

A configuração utiliza hardware de médio porte: CPU AMD Ryzen 9 5900X (12 threads usadas para inferência), 62GB de RAM DDR4, NVIDIA RTX 3080 com 10GB de VRAM, SSD NVMe e Ubuntu 22.04 em um servidor remoto.

O modelo é o OmniCoder-9B, baseado no Qwen3.5-9B, refinado em mais de 425 mil trajetórias de agentes de codificação pela Tesslate. Ele utiliza quantização Q6_K (tamanho do arquivo de 6,85GB) com janela de contexto de 128K tokens, obtido do HuggingFace.

Configuração do llama.cpp

O modelo é executado via servidor llama.cpp com estas flags específicas:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Parâmetros-chave explicados:

--ctx-size 131072: Janela de contexto de 128K para grandes bases de código
--n-gpu-layers 99: Descarrega todas as camadas para a GPU
--cache-type-k q8_0 --cache-type-v q4_0: Cache KV comprimido para caber o contexto de 128K em 10GB de VRAM
--threads 12: Corresponde aos núcleos físicos (não hyperthreads)
--flash-attn on: Computação de atenção mais rápida
--reasoning-budget 0: Desativa a saída de chain-of-thought no campo reasoning_content, fazendo o modelo gerar código diretamente

Desempenho e Testes

Métricas de desempenho: avaliação de prompt em ~300 tokens/s, geração em ~80-90 tokens/s, uso de VRAM ~8,5GB/10GB, latência de 1-5 segundos para tarefas típicas de codificação.

Os testes foram conduzidos pelo Agent Zero, uma estrutura de agente autônomo usando GLM-5 como seu cérebro principal. O Agent Zero descobriu a flag --reasoning-budget 0, acessou via SSH o servidor remoto, atualizou o serviço systemd, criou scripts de benchmark do zero, executou múltiplos benchmarks (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) e iterou na engenharia de prompts.

Resultados dos Benchmarks

Resultados dos benchmarks comparados com as alegações oficiais:

HumanEval base: Oficial 92,7%, Execução 1: 100%, Execução 2: 95%, Execução 3: 95%, Média: 96,7%
HumanEval Pro: Oficial 70,1%, Execução 1: 70%, Média: 70%

A pontuação média do HumanEval base de 96,7% supera os 92,7% oficiais, enquanto o HumanEval Pro corresponde exatamente a 70%.

📖 Read the full source: r/LocalLLaMA