OmniCoder-9B ajustado muestra un rendimiento sólido para la codificación de agentes en sistemas con 8 GB de VRAM.

Resultados de rendimiento de las pruebas con OmniCoder-9B y OpenCode
Un usuario en r/LocalLLaMA reportó haber probado OmniCoder-9B, un ajuste fino de Qwen3.5-9B entrenado en trazas Opus, y encontró que funcionaba bien para tareas de codificación agentiva en sistemas con VRAM limitada. El modelo está disponible en Hugging Face en Tesslate/OmniCoder-9B.
Configuración técnica y configuración
El usuario ejecutó la cuantización Q4_K_M GGUF usando ik_llama con el siguiente comando:
ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0
Lograron aproximadamente 40 tokens por segundo con esta configuración. El usuario señaló que la cuantización Q5_KS con una longitud de contexto de 64,000 proporciona velocidades similares.
Configuración de OpenCode
La configuración de OpenCode utilizada para las pruebas:
"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }El usuario mencionó un posible error que causa el reprocesamiento completo del prompt, el cual están investigando.
Contexto y comparación
Las pruebas fueron motivadas por preocupaciones sobre restricciones de cuota y cambios de precios en herramientas comerciales de IA para codificación. El usuario mencionó específicamente tener 8GB de VRAM, lo que típicamente limita la capacidad de ejecutar modelos de código abierto capaces a buenas velocidades para codificación agentiva. Señalaron que, aunque los modelos MOE podrían ofrecer un mejor rendimiento, sus velocidades son significativamente más lentas.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Sistema de control de coherencia en tiempo real nativo del navegador para Claude con bandas SDE y filtrado de Kalman
Un desarrollador ha creado un sistema de control de coherencia en tiempo real que funciona completamente como un artefacto de Claude en el navegador, tratando la conversación como un proceso estocástico con trayectorias SDE de Monte Carlo en vivo, filtrado dual de Kalman y detección de señales conductuales.

Xiaozhen: Una habilidad de código Claude que profundiza tres capas en las causas raíz
Xiaozhen (小真) es una habilidad de Claude Code que utiliza tres mecánicas—El Regalo, Tres Capas de Profundidad y La Predicción—para ayudar a los usuarios a descubrir lo que realmente les molesta en lugar de dar consejos directos. Se instala con un comando curl de una línea y se activa escribiendo /小真 en Claude Code.

ClawCut: Un Proxy en Python que Hace que los Pequeños LLM Locales Sean Usables con OpenClaw
ClawCut es un proxy de Python Flask que resuelve problemas comunes al conectar modelos locales de 7B/14B a OpenClaw, incluyendo envenenamiento de contexto, bucles infinitos y fallos en salidas de trabajos cron. Implementa amnesia dinámica durante llamadas a herramientas y entrega automática para tareas programadas.

Desarrollador Prueba Apple Intelligence para Tareas del Portapapeles en el Dispositivo
Un desarrollador creó un administrador del portapapeles utilizando el framework Foundation Models de Apple Intelligence, encontrándolo razonable para tareas cotidianas como resúmenes cortos y reescrituras, pero limitado en lenguaje ambiguo y trabajos detallados.