Resultados de Benchmark para Modelos Locais Pequenos e do OpenRouter na Tarefa Agente de Texto para SQL

Um desenvolvedor publicou resultados de benchmark para modelos pequenos locais e do OpenRouter em uma tarefa de agente de texto para SQL. O benchmark pega consultas em inglês como "Mostre linhas de pedido, receita, unidades vendidas, receita por unidade (receita total ÷ unidades totais vendidas), preço médio de lista por produto na subcategoria, lucro bruto e porcentagem de margem para cada subcategoria de produto" e as converte para SQL que é testado contra tabelas de banco de dados.
Detalhes do Benchmark
O agente pode ver os resultados da consulta e modificar o SQL para corrigir problemas, com um limite de rodadas de depuração. O benchmark é deliberadamente curto com 25 perguntas e executa em muito menos de 5 minutos para a maioria dos modelos, tornando-o prático para testar diferentes configurações. Ele foi projetado para ser difícil o suficiente para separar os melhores modelos dos outros.
Principais Descobertas
- Os melhores modelos abertos identificados foram kimi-k2.5, Qwen 3.5 397B-A17B e Qwen 3.5 27B
- NVIDIA Nemotron-Cascade-2-30B-A3B supera Qwen 3.5-35B-A3B e iguala Codex 5.3
- Mimo v2 Flash foi descrito como "uma joia de modelo"
Opção de Auto-hospedagem
O benchmark agora inclui a capacidade de executá-lo você mesmo em seu próprio servidor usando a versão WASM do Llama.cpp. O desenvolvedor está buscando feedback sobre o que mudar para a versão 2 e quer ver as pontuações que outros obtêm com diferentes configurações.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Ferramenta de Vigilância de Código Aberto Aborda Problema de Identidade de Agente no Ecossistema OpenClaw
Um usuário do OpenClaw que estava construindo um serviço web descobriu tráfego de agentes indistinguível de usuários humanos, o que levou ao desenvolvimento do Vigil - uma camada de identidade de código aberto baseada no W3C DID que fornece credenciais criptográficas e histórico comportamental para agentes.

Foreman: Bot Slack de Código Aberto para Controle Remoto do Claude Local
Foreman é um bot do Slack gratuito e de código aberto que fornece controle remoto para instâncias locais do Claude Code em execução. Ele permite que desenvolvedores enviem tarefas para o Claude a partir de seus telefones, mantendo acesso total local ao sistema de arquivos, ferramentas e ambiente.

Simplificando a Automação com os Wrappers OpenClaw
Os Wrappers do OpenClaw oferecem uma maneira eficiente de gerenciar agentes de codificação de IA. Descubra como essas ferramentas se integram facilmente a estruturas existentes com exemplos específicos de comandos e feedback da comunidade.

O ViralCanvas.ai oferece um espaço de trabalho de contexto persistente para os modelos Claude, incluindo o Sonnet 4.5.
ViralCanvas.ai é um espaço de trabalho visual que funciona sobre os modelos da Claude, oferecendo acesso ao Sonnet 4.5, Sonnet 4.6, Opus 4.5 e Opus 4.6 com anexação de contexto persistente. A ferramenta aborda problemas de degradação de contexto em conversas longas mantendo documentos conectados ativamente ponderados em cada prompt.