O OmniCoder-9B ajustado demonstra um desempenho robusto para codificação autônoma em sistemas com 8GB de VRAM.

Resultados de desempenho do teste do OmniCoder-9B com OpenCode
Um usuário no r/LocalLLaMA relatou testar o OmniCoder-9B, um ajuste fino do Qwen3.5-9B treinado em traços do Opus, e descobriu que ele teve um bom desempenho em tarefas de codificação agentica em sistemas com VRAM limitada. O modelo está disponível no Hugging Face em Tesslate/OmniCoder-9B.
Configuração e configuração técnica
O usuário executou a quantização Q4_K_M GGUF usando ik_llama com o seguinte comando:
ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0
Eles alcançaram aproximadamente 40 tokens por segundo com essa configuração. O usuário observou que a quantização Q5_KS com comprimento de contexto de 64.000 oferece velocidades semelhantes.
Configuração do OpenCode
A configuração do OpenCode usada para o teste:
"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }O usuário mencionou um possível bug que causa o reprocessamento completo do prompt, que eles estão investigando.
Contexto e comparação
O teste foi motivado por preocupações com restrições de cota e mudanças de preços em ferramentas comerciais de IA para codificação. O usuário mencionou especificamente ter 8GB de VRAM, o que normalmente limita a capacidade de executar modelos de código aberto capazes em boas velocidades para codificação agentica. Eles observaram que, embora os modelos MOE possam oferecer melhor desempenho, suas velocidades são significativamente mais lentas.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Marmy: Um Aplicativo Móvel Auto-Hospedado para Gerenciar Múltiplas Sessões de Agentes de IA de Codificação
Marmy é uma ferramenta de código aberto e auto-hospedada, desenvolvida com Claude Code, que permite gerenciar múltiplas sessões de agentes de IA para programação diretamente do seu celular. Ele inclui um agente Rust para suas máquinas, um aplicativo iOS, navegação de arquivos com realce de sintaxe, notificações push e uma arquitetura de gerenciador-agente.

O ClawControl 1.7.1 melhora a confiabilidade das mensagens e o suporte a mídia para o OpenClaw.
O ClawControl 1.7.1 corrige vários problemas do lado do cliente, incluindo acúmulo descontrolado de texto, mensagens fantasmas e problemas no tratamento de mídia. A atualização mantém compatibilidade com o OpenClaw até a versão 3.28.

Servidor MCP Adiciona Memória Persistente com Pontuação de Recuperação ao Claude Code
Um desenvolvedor criou um servidor MCP chamado engram-mcp que dá ao Claude Code memória persistente entre sessões e projetos, apresentando pontuação automática de recuperação baseada no sucesso dos resultados e detecção de desvio para conhecimento desatualizado.

Plugin de Memória Compartilhada OpenClaw: Coordenação Multi-Agente Baseada em SQLite
Um desenvolvedor criou um plugin para configurações de múltiplos agentes OpenClaw que permite que os agentes compartilhem memória usando SQLite, eliminando a necessidade de serviços externos. O plugin permite compartilhamento explícito de memória por meio de uma ferramenta, extração automática de contexto, controle de acesso, rastreamento de entidades e detecção de contradições.