OmniCoder-9B: Rendimiento sólido en 8GB VRAM

Resultados de rendimiento de las pruebas con OmniCoder-9B y OpenCode

Un usuario en r/LocalLLaMA reportó haber probado OmniCoder-9B, un ajuste fino de Qwen3.5-9B entrenado en trazas Opus, y encontró que funcionaba bien para tareas de codificación agentiva en sistemas con VRAM limitada. El modelo está disponible en Hugging Face en Tesslate/OmniCoder-9B.

Configuración técnica y configuración

El usuario ejecutó la cuantización Q4_K_M GGUF usando ik_llama con el siguiente comando:

ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0

Lograron aproximadamente 40 tokens por segundo con esta configuración. El usuario señaló que la cuantización Q5_KS con una longitud de contexto de 64,000 proporciona velocidades similares.

Configuración de OpenCode

La configuración de OpenCode utilizada para las pruebas:

"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }

El usuario mencionó un posible error que causa el reprocesamiento completo del prompt, el cual están investigando.

Contexto y comparación

Las pruebas fueron motivadas por preocupaciones sobre restricciones de cuota y cambios de precios en herramientas comerciales de IA para codificación. El usuario mencionó específicamente tener 8GB de VRAM, lo que típicamente limita la capacidad de ejecutar modelos de código abierto capaces a buenas velocidades para codificación agentiva. Señalaron que, aunque los modelos MOE podrían ofrecer un mejor rendimiento, sus velocidades son significativamente más lentas.

📖 Read the full source: r/LocalLLaMA

OmniCoder-9B ajustado muestra un rendimiento sólido para la codificación de agentes en sistemas con 8 GB de VRAM.

Resultados de rendimiento de las pruebas con OmniCoder-9B y OpenCode

Configuración técnica y configuración

Configuración de OpenCode

Contexto y comparación

👀 Ver también

Sistema de control de coherencia en tiempo real nativo del navegador para Claude con bandas SDE y filtrado de Kalman

Xiaozhen: Una habilidad de código Claude que profundiza tres capas en las causas raíz

ClawCut: Un Proxy en Python que Hace que los Pequeños LLM Locales Sean Usables con OpenClaw

Desarrollador Prueba Apple Intelligence para Tareas del Portapapeles en el Dispositivo