Resultados de Referencia para Modelos Locales Pequeños y de OpenRouter en la Tarea Agéntica de Texto a SQL

Un desarrollador ha publicado los resultados de un punto de referencia para modelos locales pequeños y de OpenRouter en una tarea de agente de texto a SQL. El punto de referencia toma consultas en inglés como "Mostrar líneas de pedido, ingresos, unidades vendidas, ingresos por unidad (ingresos totales ÷ unidades totales vendidas), precio de lista promedio por producto en la subcategoría, beneficio bruto y porcentaje de margen para cada subcategoría de producto" y las convierte en SQL que se prueba contra tablas de base de datos.
Detalles del Punto de Referencia
El agente puede ver los resultados de las consultas y modificar el SQL para corregir problemas, con un límite en las rondas de depuración. El punto de referencia es deliberadamente corto con 25 preguntas y se ejecuta en mucho menos de 5 minutos para la mayoría de los modelos, lo que lo hace práctico para probar diferentes configuraciones. Está diseñado para ser lo suficientemente difícil como para separar los mejores modelos de los demás.
Hallazgos Clave
- Los mejores modelos abiertos identificados fueron kimi-k2.5, Qwen 3.5 397B-A17B y Qwen 3.5 27B
- NVIDIA Nemotron-Cascade-2-30B-A3B supera a Qwen 3.5-35B-A3B y coincide con Codex 5.3
- Mimo v2 Flash fue descrito como "una joya de modelo"
Opción de Autoalojamiento
El punto de referencia ahora incluye la capacidad de ejecutarlo tú mismo contra tu propio servidor usando la versión WASM de Llama.cpp. El desarrollador está buscando comentarios sobre qué cambiar para la versión 2 y quiere ver las puntuaciones que otros obtienen con diferentes configuraciones.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Murmur: Un daemon Cron de código abierto para automatizar sesiones de código Claude
Murmur es un demonio cron que programa y automatiza sesiones de código de Claude utilizando un archivo HEARTBEAT.md para la configuración.

Evaluación comparativa de 88 modelos pequeños GGUF en un Mac Mini M4 de 16 GB
Una canalización automatizada probó 88 modelos GGUF en una Mac Mini M4 con 16 GB de RAM, identificando 9 como inutilizables y 4 modelos LFM2-8B-A1B MoE en la frontera de Pareto por velocidad y calidad.

Holaboss tiene como objetivo resolver el despliegue de agentes locales portátiles.
Holaboss es un proyecto de código abierto que trata al trabajador de IA como un artefacto portátil con espacio de trabajo por trabajador, habilidades/aplicaciones locales, memoria persistente y un tiempo de ejecución que puede empaquetarse por separado de la aplicación de escritorio. Es compatible con pilas de modelos locales como Ollama y requiere Node.js 22+ en las máquinas de destino.
Cocall.ai MCP: Llamadas Telefónicas Salientes con Escalabilidad Humana en Tiempo Real
Cocall.ai es un MCP para Claude que permite realizar llamadas telefónicas salientes con un modelo de voz a voz full-duplex. Puede pausar una llamada para hacerte una pregunta específica en lugar de adivinar, navegar por menús IVR y transferirte llamadas cuando sea necesario.