Тест text-to-SQL: локальные модели vs OpenRouter (Kimi K2.5, Qwen 3.5)

Разработчик опубликовал результаты бенчмарка для небольших локальных моделей и моделей OpenRouter в задаче агентного преобразования текста в SQL. Бенчмарк принимает английские запросы, такие как "Показать строки заказов, выручку, проданные единицы, выручку на единицу (общая выручка ÷ общее количество проданных единиц), среднюю цену по прейскуранту на продукт в подкатегории, валовую прибыль и процент маржи для каждой подкатегории продукта", и преобразует их в SQL, который тестируется на таблицах базы данных.

Детали бенчмарка

Агент может видеть результаты запросов и изменять SQL для исправления проблем, с ограничением на раунды отладки. Бенчмарк намеренно короткий — 25 вопросов — и выполняется гораздо быстрее 5 минут для большинства моделей, что делает его практичным для тестирования различных конфигураций. Он разработан достаточно сложным, чтобы отделить лучшие модели от остальных.

Ключевые выводы

Лучшими открытыми моделями были признаны kimi-k2.5, Qwen 3.5 397B-A17B и Qwen 3.5 27B
NVIDIA Nemotron-Cascade-2-30B-A3B превосходит Qwen 3.5-35B-A3B и соответствует Codex 5.3
Mimo v2 Flash была описана как "настоящая жемчужина среди моделей"

Вариант для самостоятельного размещения

Бенчмарк теперь включает возможность запускать его самостоятельно на вашем собственном сервере с использованием WASM-версии Llama.cpp. Разработчик ищет обратную связь о том, что изменить для версии 2, и хочет увидеть оценки, которые получают другие с разными конфигурациями.

📖 Read the full source: r/LocalLLaMA

Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL

Детали бенчмарка

Ключевые выводы

Вариант для самостоятельного размещения

👀 Смотрите также

Открытая курируемая коллекция ресурсов OpenClaw представлена.

Claude-Code версии 2.1.111 добавляет Opus 4.7 с высоким уровнем усилий, функцию /ultrareview и инструмент PowerShell.

Разработчик создаёт библиотеку сжатия на Rust с помощью Claude Opus 4.6, задаваясь вопросом о её практической пользе.

Мозг: Постоянная система памяти ошибок для кода Claude через MCP