OmniCoder-9B Local Setup: 96.7% HumanEval en RTX 3080 con llama.cpp

Configuración de Hardware y Modelo

La configuración utiliza hardware de gama media: CPU AMD Ryzen 9 5900X (12 hilos utilizados para inferencia), 62GB de RAM DDR4, NVIDIA RTX 3080 con 10GB de VRAM, SSD NVMe y Ubuntu 22.04 en un servidor remoto.

El modelo es OmniCoder-9B, basado en Qwen3.5-9B, afinado en más de 425k trayectorias de agentes de codificación por Tesslate. Utiliza cuantización Q6_K (tamaño de archivo 6.85GB) con ventana de contexto de 128K tokens, obtenido de HuggingFace.

Configuración de llama.cpp

El modelo se ejecuta a través del servidor llama.cpp con estas banderas específicas:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Parámetros clave explicados:

--ctx-size 131072: Ventana de contexto de 128K para bases de código grandes
--n-gpu-layers 99: Descargar todas las capas a la GPU
--cache-type-k q8_0 --cache-type-v q4_0: Caché KV comprimido para ajustar contexto de 128K en 10GB de VRAM
--threads 12: Coincidir con núcleos físicos (no hyperthreads)
--flash-attn on: Cálculo de atención más rápido
--reasoning-budget 0: Desactiva la salida de cadena de pensamiento en el campo reasoning_content, haciendo que el modelo genere código directamente

Rendimiento y Pruebas

Métricas de rendimiento: evaluación de prompt a ~300 tokens/s, generación a ~80-90 tokens/s, uso de VRAM ~8.5GB/10GB, latencia de 1-5 segundos para tareas típicas de codificación.

Las pruebas fueron realizadas por Agent Zero, un framework de agente autónomo que utiliza GLM-5 como su cerebro principal. Agent Zero descubrió la bandera --reasoning-budget 0, se conectó por SSH al servidor remoto, actualizó el servicio systemd, creó scripts de evaluación desde cero, ejecutó múltiples benchmarks (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) e iteró en la ingeniería de prompts.

Resultados de Benchmark

Resultados de benchmark comparados con afirmaciones oficiales:

HumanEval base: Oficial 92.7%, Ejecución 1: 100%, Ejecución 2: 95%, Ejecución 3: 95%, Promedio: 96.7%
HumanEval Pro: Oficial 70.1%, Ejecución 1: 70%, Promedio: 70%

El puntaje promedio de HumanEval base del 96.7% supera el oficial del 92.7%, mientras que HumanEval Pro coincide exactamente al 70%.

📖 Read the full source: r/LocalLLaMA

Ejecutando OmniCoder-9B localmente con detalles de configuración de llama.cpp

Configuración de Hardware y Modelo

Configuración de llama.cpp

Rendimiento y Pruebas

Resultados de Benchmark

👀 Ver también

Arquitectura de Sistema para Programadores de Vibe: Guía de un Ingeniero Senior

Cómo Arreglar los Tiempos de Respuesta de OpenClaw Reduciendo la Hinchazón del Contexto

Cómo 40 revisiones de prompts transformaron los resúmenes de Claude AI en un producto: Estudio de caso de una plataforma de tutoría ($19K MRR)

OpenClaw Ollama Cloud: Solución de tres capas para modelos faltantes y el error de eliminación del doctor