OmniCoder-9B: Codificação Autônoma em 8GB VRAM

Resultados de desempenho do teste do OmniCoder-9B com OpenCode

Um usuário no r/LocalLLaMA relatou testar o OmniCoder-9B, um ajuste fino do Qwen3.5-9B treinado em traços do Opus, e descobriu que ele teve um bom desempenho em tarefas de codificação agentica em sistemas com VRAM limitada. O modelo está disponível no Hugging Face em Tesslate/OmniCoder-9B.

Configuração e configuração técnica

O usuário executou a quantização Q4_K_M GGUF usando ik_llama com o seguinte comando:

ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0

Eles alcançaram aproximadamente 40 tokens por segundo com essa configuração. O usuário observou que a quantização Q5_KS com comprimento de contexto de 64.000 oferece velocidades semelhantes.

Configuração do OpenCode

A configuração do OpenCode usada para o teste:

"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }

O usuário mencionou um possível bug que causa o reprocessamento completo do prompt, que eles estão investigando.

Contexto e comparação

O teste foi motivado por preocupações com restrições de cota e mudanças de preços em ferramentas comerciais de IA para codificação. O usuário mencionou especificamente ter 8GB de VRAM, o que normalmente limita a capacidade de executar modelos de código aberto capazes em boas velocidades para codificação agentica. Eles observaram que, embora os modelos MOE possam oferecer melhor desempenho, suas velocidades são significativamente mais lentas.

📖 Read the full source: r/LocalLLaMA

O OmniCoder-9B ajustado demonstra um desempenho robusto para codificação autônoma em sistemas com 8GB de VRAM.

Resultados de desempenho do teste do OmniCoder-9B com OpenCode

Configuração e configuração técnica

Configuração do OpenCode

Contexto e comparação

👀 See Also

ClaudeClaw: Plugin de Código Gratuito do Claude para Agentes de IA Persistente em Plataformas de Mensagens

OpenClaw Optimizer v1.18.0 lançado com alinhamento ao OpenClaw v2026.3.7

O ViralCanvas.ai oferece um espaço de trabalho de contexto persistente para os modelos Claude, incluindo o Sonnet 4.5.

O Plugin Claude-ETA Adiciona Cronometragem de Tarefas e Detecção de Loop de Reparo ao Claude Code