Executando OmniCoder-9B localmente com detalhes de configuração do llama.cpp

Configuração de Hardware e Modelo
A configuração utiliza hardware de médio porte: CPU AMD Ryzen 9 5900X (12 threads usadas para inferência), 62GB de RAM DDR4, NVIDIA RTX 3080 com 10GB de VRAM, SSD NVMe e Ubuntu 22.04 em um servidor remoto.
O modelo é o OmniCoder-9B, baseado no Qwen3.5-9B, refinado em mais de 425 mil trajetórias de agentes de codificação pela Tesslate. Ele utiliza quantização Q6_K (tamanho do arquivo de 6,85GB) com janela de contexto de 128K tokens, obtido do HuggingFace.
Configuração do llama.cpp
O modelo é executado via servidor llama.cpp com estas flags específicas:
llama-server \ --model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \ --host 0.0.0.0 --port 8080 \ --ctx-size 131072 \ --n-gpu-layers 99 \ --cache-type-k q8_0 \ --cache-type-v q4_0 \ --threads 12 \ --batch-size 128 \ --flash-attn on \ --temp 0.4 \ --top-k 20 \ --top-p 0.95 \ --jinja \ --reasoning-budget 0
Parâmetros-chave explicados:
--ctx-size 131072: Janela de contexto de 128K para grandes bases de código--n-gpu-layers 99: Descarrega todas as camadas para a GPU--cache-type-k q8_0 --cache-type-v q4_0: Cache KV comprimido para caber o contexto de 128K em 10GB de VRAM--threads 12: Corresponde aos núcleos físicos (não hyperthreads)--flash-attn on: Computação de atenção mais rápida--reasoning-budget 0: Desativa a saída de chain-of-thought no campo reasoning_content, fazendo o modelo gerar código diretamente
Desempenho e Testes
Métricas de desempenho: avaliação de prompt em ~300 tokens/s, geração em ~80-90 tokens/s, uso de VRAM ~8,5GB/10GB, latência de 1-5 segundos para tarefas típicas de codificação.
Os testes foram conduzidos pelo Agent Zero, uma estrutura de agente autônomo usando GLM-5 como seu cérebro principal. O Agent Zero descobriu a flag --reasoning-budget 0, acessou via SSH o servidor remoto, atualizou o serviço systemd, criou scripts de benchmark do zero, executou múltiplos benchmarks (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) e iterou na engenharia de prompts.
Resultados dos Benchmarks
Resultados dos benchmarks comparados com as alegações oficiais:
- HumanEval base: Oficial 92,7%, Execução 1: 100%, Execução 2: 95%, Execução 3: 95%, Média: 96,7%
- HumanEval Pro: Oficial 70,1%, Execução 1: 70%, Média: 70%
A pontuação média do HumanEval base de 96,7% supera os 92,7% oficiais, enquanto o HumanEval Pro corresponde exatamente a 70%.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Proprietários de Repositórios GitHub: Use a Flag --author do Git para Bloquear Spam de Bots de IA
Archestra combateu spam de comentários/PR de IA explorando a configuração 'contribuidores anteriores' do GitHub e a flag --author do Git para incluir humanos reais na lista de permissões via um fluxo de integração com captcha.

Estruturando Agentes de Código Claude com Padrões de Diretório .claude/ e CLAUDE.md
Um desenvolvedor compartilha sua abordagem para executar múltiplos agentes de IA usando o Claude Code, com cada agente tendo seu próprio diretório contendo um arquivo CLAUDE.md e um diretório .claude/ com regras e habilidades. A ideia principal é separar o contexto sempre ativo dos fluxos de trabalho sob demanda para otimizar o uso de tokens e a qualidade das respostas.

Configuração de Instância Canary para Atualizações Seguras do OpenClaw
Um usuário do Reddit compartilha uma metodologia detalhada de canário para testar atualizações do OpenClaw antes da produção: raiz de configuração isolada, porta separada, matriz de teste de fumaça e um formato de relatório de atualização estruturado.

Como Solucionar Problemas de Configuração do OpenClaw: Questões de Multiagentes e Respostas de Modelo
Com dificuldades para configurar o OpenClaw? Descubra problemas comuns com configurações multiagente e modelos não responsivos, e aprenda como resolvê-los.