Ejecutando OmniCoder-9B localmente con detalles de configuración de llama.cpp

✍️ OpenClawRadar📅 Publicado: 14 de marzo de 2026🔗 Source
Ejecutando OmniCoder-9B localmente con detalles de configuración de llama.cpp
Ad

Configuración de Hardware y Modelo

La configuración utiliza hardware de gama media: CPU AMD Ryzen 9 5900X (12 hilos utilizados para inferencia), 62GB de RAM DDR4, NVIDIA RTX 3080 con 10GB de VRAM, SSD NVMe y Ubuntu 22.04 en un servidor remoto.

El modelo es OmniCoder-9B, basado en Qwen3.5-9B, afinado en más de 425k trayectorias de agentes de codificación por Tesslate. Utiliza cuantización Q6_K (tamaño de archivo 6.85GB) con ventana de contexto de 128K tokens, obtenido de HuggingFace.

Configuración de llama.cpp

El modelo se ejecuta a través del servidor llama.cpp con estas banderas específicas:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Parámetros clave explicados:

  • --ctx-size 131072: Ventana de contexto de 128K para bases de código grandes
  • --n-gpu-layers 99: Descargar todas las capas a la GPU
  • --cache-type-k q8_0 --cache-type-v q4_0: Caché KV comprimido para ajustar contexto de 128K en 10GB de VRAM
  • --threads 12: Coincidir con núcleos físicos (no hyperthreads)
  • --flash-attn on: Cálculo de atención más rápido
  • --reasoning-budget 0: Desactiva la salida de cadena de pensamiento en el campo reasoning_content, haciendo que el modelo genere código directamente
Ad

Rendimiento y Pruebas

Métricas de rendimiento: evaluación de prompt a ~300 tokens/s, generación a ~80-90 tokens/s, uso de VRAM ~8.5GB/10GB, latencia de 1-5 segundos para tareas típicas de codificación.

Las pruebas fueron realizadas por Agent Zero, un framework de agente autónomo que utiliza GLM-5 como su cerebro principal. Agent Zero descubrió la bandera --reasoning-budget 0, se conectó por SSH al servidor remoto, actualizó el servicio systemd, creó scripts de evaluación desde cero, ejecutó múltiples benchmarks (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) e iteró en la ingeniería de prompts.

Resultados de Benchmark

Resultados de benchmark comparados con afirmaciones oficiales:

  • HumanEval base: Oficial 92.7%, Ejecución 1: 100%, Ejecución 2: 95%, Ejecución 3: 95%, Promedio: 96.7%
  • HumanEval Pro: Oficial 70.1%, Ejecución 1: 70%, Promedio: 70%

El puntaje promedio de HumanEval base del 96.7% supera el oficial del 92.7%, mientras que HumanEval Pro coincide exactamente al 70%.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Estructurando Agentes de Código Claude con Patrones de CLAUDE.md y Directorio .claude/
Guías

Estructurando Agentes de Código Claude con Patrones de CLAUDE.md y Directorio .claude/

Un desarrollador comparte su enfoque para ejecutar múltiples agentes de IA usando Claude Code, donde cada agente tiene su propio directorio que contiene un archivo CLAUDE.md y un directorio .claude/ con reglas y habilidades. La idea clave es separar el contexto siempre activo de los flujos de trabajo bajo demanda para optimizar el uso de tokens y la calidad de las respuestas.

OpenClawRadar
5 Capacidades Principales de OpenClaw Disponibles Sin Instalar Habilidades
Guías

5 Capacidades Principales de OpenClaw Disponibles Sin Instalar Habilidades

La instalación base de OpenClaw puede manejar operaciones de archivos, comandos de terminal, obtención web, tareas programadas y flujos de trabajo de múltiples pasos sin habilidades adicionales, reduciendo costos de tokens y complejidad de configuración.

OpenClawRadar
Guía: Ejecutar GitHub Copilot con un LLM Local en Windows a través del Servidor Lemonade
Guías

Guía: Ejecutar GitHub Copilot con un LLM Local en Windows a través del Servidor Lemonade

Un desarrollador creó una guía paso a paso para configurar GitHub Copilot para que funcione con un LLM local en un Framework Desktop usando Lemonade Server, abordando la falta de instrucciones simples para esta configuración en Windows.

OpenClawRadar
Arquitectura de memoria de tres capas para el contexto persistente del agente OpenClaw
Guías

Arquitectura de memoria de tres capas para el contexto persistente del agente OpenClaw

Un desarrollador construyó un sistema de memoria de 3 capas sobre la infraestructura de OpenClaw para evitar que los agentes comenzaran cada sesión sin contexto. La arquitectura incluye archivos de espacio de trabajo L1 inyectados en cada turno, búsqueda de memoria semántica L2 y documentos de referencia L3 abiertos bajo demanda.

OpenClawRadar