Resultados de Benchmark para Modelos Locais Pequenos e do OpenRouter na Tarefa Agente de Texto para SQL

✍️ OpenClawRadar📅 Publicado: April 17, 2026🔗 Source
Resultados de Benchmark para Modelos Locais Pequenos e do OpenRouter na Tarefa Agente de Texto para SQL
Ad

Um desenvolvedor publicou resultados de benchmark para modelos pequenos locais e do OpenRouter em uma tarefa de agente de texto para SQL. O benchmark pega consultas em inglês como "Mostre linhas de pedido, receita, unidades vendidas, receita por unidade (receita total ÷ unidades totais vendidas), preço médio de lista por produto na subcategoria, lucro bruto e porcentagem de margem para cada subcategoria de produto" e as converte para SQL que é testado contra tabelas de banco de dados.

Detalhes do Benchmark

O agente pode ver os resultados da consulta e modificar o SQL para corrigir problemas, com um limite de rodadas de depuração. O benchmark é deliberadamente curto com 25 perguntas e executa em muito menos de 5 minutos para a maioria dos modelos, tornando-o prático para testar diferentes configurações. Ele foi projetado para ser difícil o suficiente para separar os melhores modelos dos outros.

Ad

Principais Descobertas

  • Os melhores modelos abertos identificados foram kimi-k2.5, Qwen 3.5 397B-A17B e Qwen 3.5 27B
  • NVIDIA Nemotron-Cascade-2-30B-A3B supera Qwen 3.5-35B-A3B e iguala Codex 5.3
  • Mimo v2 Flash foi descrito como "uma joia de modelo"

Opção de Auto-hospedagem

O benchmark agora inclui a capacidade de executá-lo você mesmo em seu próprio servidor usando a versão WASM do Llama.cpp. O desenvolvedor está buscando feedback sobre o que mudar para a versão 2 e quer ver as pontuações que outros obtêm com diferentes configurações.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Ferramenta de Vigilância de Código Aberto Aborda Problema de Identidade de Agente no Ecossistema OpenClaw
Tools

Ferramenta de Vigilância de Código Aberto Aborda Problema de Identidade de Agente no Ecossistema OpenClaw

Um usuário do OpenClaw que estava construindo um serviço web descobriu tráfego de agentes indistinguível de usuários humanos, o que levou ao desenvolvimento do Vigil - uma camada de identidade de código aberto baseada no W3C DID que fornece credenciais criptográficas e histórico comportamental para agentes.

OpenClawRadar
Foreman: Bot Slack de Código Aberto para Controle Remoto do Claude Local
Tools

Foreman: Bot Slack de Código Aberto para Controle Remoto do Claude Local

Foreman é um bot do Slack gratuito e de código aberto que fornece controle remoto para instâncias locais do Claude Code em execução. Ele permite que desenvolvedores enviem tarefas para o Claude a partir de seus telefones, mantendo acesso total local ao sistema de arquivos, ferramentas e ambiente.

OpenClawRadar
Simplificando a Automação com os Wrappers OpenClaw
Tools

Simplificando a Automação com os Wrappers OpenClaw

Os Wrappers do OpenClaw oferecem uma maneira eficiente de gerenciar agentes de codificação de IA. Descubra como essas ferramentas se integram facilmente a estruturas existentes com exemplos específicos de comandos e feedback da comunidade.

OpenClawRadar
O ViralCanvas.ai oferece um espaço de trabalho de contexto persistente para os modelos Claude, incluindo o Sonnet 4.5.
Tools

O ViralCanvas.ai oferece um espaço de trabalho de contexto persistente para os modelos Claude, incluindo o Sonnet 4.5.

ViralCanvas.ai é um espaço de trabalho visual que funciona sobre os modelos da Claude, oferecendo acesso ao Sonnet 4.5, Sonnet 4.6, Opus 4.5 e Opus 4.6 com anexação de contexto persistente. A ferramenta aborda problemas de degradação de contexto em conversas longas mantendo documentos conectados ativamente ponderados em cada prompt.

OpenClawRadar