Executando OmniCoder-9B localmente com detalhes de configuração do llama.cpp

✍️ OpenClawRadar📅 Publicado: March 14, 2026🔗 Source
Executando OmniCoder-9B localmente com detalhes de configuração do llama.cpp
Ad

Configuração de Hardware e Modelo

A configuração utiliza hardware de médio porte: CPU AMD Ryzen 9 5900X (12 threads usadas para inferência), 62GB de RAM DDR4, NVIDIA RTX 3080 com 10GB de VRAM, SSD NVMe e Ubuntu 22.04 em um servidor remoto.

O modelo é o OmniCoder-9B, baseado no Qwen3.5-9B, refinado em mais de 425 mil trajetórias de agentes de codificação pela Tesslate. Ele utiliza quantização Q6_K (tamanho do arquivo de 6,85GB) com janela de contexto de 128K tokens, obtido do HuggingFace.

Configuração do llama.cpp

O modelo é executado via servidor llama.cpp com estas flags específicas:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Parâmetros-chave explicados:

  • --ctx-size 131072: Janela de contexto de 128K para grandes bases de código
  • --n-gpu-layers 99: Descarrega todas as camadas para a GPU
  • --cache-type-k q8_0 --cache-type-v q4_0: Cache KV comprimido para caber o contexto de 128K em 10GB de VRAM
  • --threads 12: Corresponde aos núcleos físicos (não hyperthreads)
  • --flash-attn on: Computação de atenção mais rápida
  • --reasoning-budget 0: Desativa a saída de chain-of-thought no campo reasoning_content, fazendo o modelo gerar código diretamente
Ad

Desempenho e Testes

Métricas de desempenho: avaliação de prompt em ~300 tokens/s, geração em ~80-90 tokens/s, uso de VRAM ~8,5GB/10GB, latência de 1-5 segundos para tarefas típicas de codificação.

Os testes foram conduzidos pelo Agent Zero, uma estrutura de agente autônomo usando GLM-5 como seu cérebro principal. O Agent Zero descobriu a flag --reasoning-budget 0, acessou via SSH o servidor remoto, atualizou o serviço systemd, criou scripts de benchmark do zero, executou múltiplos benchmarks (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) e iterou na engenharia de prompts.

Resultados dos Benchmarks

Resultados dos benchmarks comparados com as alegações oficiais:

  • HumanEval base: Oficial 92,7%, Execução 1: 100%, Execução 2: 95%, Execução 3: 95%, Média: 96,7%
  • HumanEval Pro: Oficial 70,1%, Execução 1: 70%, Média: 70%

A pontuação média do HumanEval base de 96,7% supera os 92,7% oficiais, enquanto o HumanEval Pro corresponde exatamente a 70%.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Proprietários de Repositórios GitHub: Use a Flag --author do Git para Bloquear Spam de Bots de IA
Guides

Proprietários de Repositórios GitHub: Use a Flag --author do Git para Bloquear Spam de Bots de IA

Archestra combateu spam de comentários/PR de IA explorando a configuração 'contribuidores anteriores' do GitHub e a flag --author do Git para incluir humanos reais na lista de permissões via um fluxo de integração com captcha.

OpenClawRadar
Estruturando Agentes de Código Claude com Padrões de Diretório .claude/ e CLAUDE.md
Guides

Estruturando Agentes de Código Claude com Padrões de Diretório .claude/ e CLAUDE.md

Um desenvolvedor compartilha sua abordagem para executar múltiplos agentes de IA usando o Claude Code, com cada agente tendo seu próprio diretório contendo um arquivo CLAUDE.md e um diretório .claude/ com regras e habilidades. A ideia principal é separar o contexto sempre ativo dos fluxos de trabalho sob demanda para otimizar o uso de tokens e a qualidade das respostas.

OpenClawRadar
Configuração de Instância Canary para Atualizações Seguras do OpenClaw
Guides

Configuração de Instância Canary para Atualizações Seguras do OpenClaw

Um usuário do Reddit compartilha uma metodologia detalhada de canário para testar atualizações do OpenClaw antes da produção: raiz de configuração isolada, porta separada, matriz de teste de fumaça e um formato de relatório de atualização estruturado.

OpenClawRadar
Como Solucionar Problemas de Configuração do OpenClaw: Questões de Multiagentes e Respostas de Modelo
Guides

Como Solucionar Problemas de Configuração do OpenClaw: Questões de Multiagentes e Respostas de Modelo

Com dificuldades para configurar o OpenClaw? Descubra problemas comuns com configurações multiagente e modelos não responsivos, e aprenda como resolvê-los.

OpenClawRadar