Resultados de Benchmark para Modelos Locais Pequenos e do OpenRouter na Tarefa Agente de Texto para SQL

✍️ OpenClawRadar📅 Publicado: April 17, 2026🔗 Source

Um desenvolvedor publicou resultados de benchmark para modelos pequenos locais e do OpenRouter em uma tarefa de agente de texto para SQL. O benchmark pega consultas em inglês como "Mostre linhas de pedido, receita, unidades vendidas, receita por unidade (receita total ÷ unidades totais vendidas), preço médio de lista por produto na subcategoria, lucro bruto e porcentagem de margem para cada subcategoria de produto" e as converte para SQL que é testado contra tabelas de banco de dados.

Detalhes do Benchmark

O agente pode ver os resultados da consulta e modificar o SQL para corrigir problemas, com um limite de rodadas de depuração. O benchmark é deliberadamente curto com 25 perguntas e executa em muito menos de 5 minutos para a maioria dos modelos, tornando-o prático para testar diferentes configurações. Ele foi projetado para ser difícil o suficiente para separar os melhores modelos dos outros.

Principais Descobertas

Os melhores modelos abertos identificados foram kimi-k2.5, Qwen 3.5 397B-A17B e Qwen 3.5 27B
NVIDIA Nemotron-Cascade-2-30B-A3B supera Qwen 3.5-35B-A3B e iguala Codex 5.3
Mimo v2 Flash foi descrito como "uma joia de modelo"

Opção de Auto-hospedagem

O benchmark agora inclui a capacidade de executá-lo você mesmo em seu próprio servidor usando a versão WASM do Llama.cpp. O desenvolvedor está buscando feedback sobre o que mudar para a versão 2 e quer ver as pontuações que outros obtêm com diferentes configurações.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Tools

VTCode: Um Agente de Codificação TUI em Rust que Agressivamente Apara Contexto com Fragmentação em Nível de AST

VTCode é um agente de codificação TUI em Rust, open-source, que reduz agressivamente o contexto usando chunking em nível AST via ripgrep e ast-grep. Suporta provedores personalizados compatíveis com OpenAI, sandboxing com macOS Seatbelt e Linux Landlock, e validação tree-sitter-bash em comandos gerados.

May 27, 2026, 12:17 PM UTC

OpenClawRadar

Tools

Desenvolvedor solo constrói agente de IA multiplataforma para desktop com controle remoto móvel em 3 semanas e envia para mais de 40 países

Um desenvolvedor solo construiu o Skales, um agente de IA nativo para desktop com mais de 139 ferramentas e um aplicativo complementar para controle remoto — tudo em 3 semanas usando Claude. O app roda em macOS, Windows e Linux, é local-first e gratuito, e já tem usuários ativos em mais de 40 países.

May 1, 2026, 10:18 AM UTC

OpenClawRadar

Tools

A Gema Rails-AI-Context Fornece ao Claude Código com o Modelo Completo do App Rails via MCP

A gem rails-ai-context realiza auto-introspecção de aplicações Rails e expõe 39 ferramentas via MCP, permitindo que o Claude Code consulte detalhes específicos do app como esquema com colunas criptografadas, associações de modelos, rotas, configurações Stimulus e mapeamentos Turbo, em vez de ler arquivos inteiros.

Apr 14, 2026, 02:45 AM UTC

OpenClawRadar

Tools

Pesquisa de Sessão: Pesquisa de Texto Completo Local para Sessões Claude Code e Codex, Agora na Sua Barra de Menu

Session Search indexa transcrições locais do Claude Code e Codex usando SQLite FTS, permitindo pesquisa profunda de texto completo em erros, comandos, nomes de arquivos e decisões — acessível a partir da barra de menus do macOS com trechos destacados.

May 4, 2026, 02:22 PM UTC

OpenClawRadar