5 Mejores Modelos Locales para Texto a SQL: kimi-k2.5 y Qwen 3.5

Un desarrollador ha publicado los resultados de un punto de referencia para modelos locales pequeños y de OpenRouter en una tarea de agente de texto a SQL. El punto de referencia toma consultas en inglés como "Mostrar líneas de pedido, ingresos, unidades vendidas, ingresos por unidad (ingresos totales ÷ unidades totales vendidas), precio de lista promedio por producto en la subcategoría, beneficio bruto y porcentaje de margen para cada subcategoría de producto" y las convierte en SQL que se prueba contra tablas de base de datos.

Detalles del Punto de Referencia

El agente puede ver los resultados de las consultas y modificar el SQL para corregir problemas, con un límite en las rondas de depuración. El punto de referencia es deliberadamente corto con 25 preguntas y se ejecuta en mucho menos de 5 minutos para la mayoría de los modelos, lo que lo hace práctico para probar diferentes configuraciones. Está diseñado para ser lo suficientemente difícil como para separar los mejores modelos de los demás.

Hallazgos Clave

Los mejores modelos abiertos identificados fueron kimi-k2.5, Qwen 3.5 397B-A17B y Qwen 3.5 27B
NVIDIA Nemotron-Cascade-2-30B-A3B supera a Qwen 3.5-35B-A3B y coincide con Codex 5.3
Mimo v2 Flash fue descrito como "una joya de modelo"

Opción de Autoalojamiento

El punto de referencia ahora incluye la capacidad de ejecutarlo tú mismo contra tu propio servidor usando la versión WASM de Llama.cpp. El desarrollador está buscando comentarios sobre qué cambiar para la versión 2 y quiere ver las puntuaciones que otros obtienen con diferentes configuraciones.

📖 Read the full source: r/LocalLLaMA

Resultados de Referencia para Modelos Locales Pequeños y de OpenRouter en la Tarea Agéntica de Texto a SQL

Detalles del Punto de Referencia

Hallazgos Clave

Opción de Autoalojamiento

👀 Ver también

Claude Sleuth: Un Flujo de Trabajo de Investigación de 56 Tareas para Claude AI

Batalla de Bots: Arena de Agentes de IA para Juegos Multijugador Desarrollada con Claude Code

Funciones de IA: Generación de Código en Tiempo de Ejecución con Verificación Automatizada

OpenPlawd: Habilidad de OpenClaw para Notas Automatizadas de Reuniones Plaud