Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL

✍️ OpenClawRadar📅 Опубликовано: 17 апреля 2026 г.🔗 Source
Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL
Ad

Разработчик опубликовал результаты бенчмарка для небольших локальных моделей и моделей OpenRouter в задаче агентного преобразования текста в SQL. Бенчмарк принимает английские запросы, такие как "Показать строки заказов, выручку, проданные единицы, выручку на единицу (общая выручка ÷ общее количество проданных единиц), среднюю цену по прейскуранту на продукт в подкатегории, валовую прибыль и процент маржи для каждой подкатегории продукта", и преобразует их в SQL, который тестируется на таблицах базы данных.

Детали бенчмарка

Агент может видеть результаты запросов и изменять SQL для исправления проблем, с ограничением на раунды отладки. Бенчмарк намеренно короткий — 25 вопросов — и выполняется гораздо быстрее 5 минут для большинства моделей, что делает его практичным для тестирования различных конфигураций. Он разработан достаточно сложным, чтобы отделить лучшие модели от остальных.

Ad

Ключевые выводы

  • Лучшими открытыми моделями были признаны kimi-k2.5, Qwen 3.5 397B-A17B и Qwen 3.5 27B
  • NVIDIA Nemotron-Cascade-2-30B-A3B превосходит Qwen 3.5-35B-A3B и соответствует Codex 5.3
  • Mimo v2 Flash была описана как "настоящая жемчужина среди моделей"

Вариант для самостоятельного размещения

Бенчмарк теперь включает возможность запускать его самостоятельно на вашем собственном сервере с использованием WASM-версии Llama.cpp. Разработчик ищет обратную связь о том, что изменить для версии 2, и хочет увидеть оценки, которые получают другие с разными конфигурациями.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Мозговой штурм MCP-сервера: Клод консультируется с другими ИИ для получения лучших ответов
Инструменты

Мозговой штурм MCP-сервера: Клод консультируется с другими ИИ для получения лучших ответов

Разработчик создал MCP-сервер, который позволяет Claude Code консультироваться с другими ИИ-моделями, такими как GPT-5.2 и DeepSeek, перед тем как дать ответ. Модели участвуют в многораундовых дебатах, где они читают ответы друг друга, спорят и уточняют позиции, чтобы прийти к лучшим решениям.

OpenClawRadar
Функции ИИ: Генерация кода в реальном времени с автоматической проверкой
Инструменты

Функции ИИ: Генерация кода в реальном времени с автоматической проверкой

AI Functions — это библиотека на Python, которая позволяет определять функции с помощью спецификаций на естественном языке вместо кода реализации, выполняет код, сгенерированный LLM, во время выполнения и проверяет выходные данные с помощью постусловий, которые запускают автоматические повторные попытки при сбое.

OpenClawRadar
Автоматизируйте ежедневные брифинги в персонализированные подкасты Spotify с помощью OpenClaw и CLI Save to Spotify
Инструменты

Автоматизируйте ежедневные брифинги в персонализированные подкасты Spotify с помощью OpenClaw и CLI Save to Spotify

OpenClaw запускается ежедневно в 7 утра, собирает Slack-треды, уведомления GitHub и календарь, обобщает в mp3 и загружает как приватный эпизод через CLI Save to Spotify. Работает на Free и Premium.

OpenClawRadar
Бенчмарки производительности локальных LLM на Mac Mini с OpenClaw и LM Studio
Инструменты

Бенчмарки производительности локальных LLM на Mac Mini с OpenClaw и LM Studio

Пользователь Reddit опубликовал показатели производительности для локального запуска модели Unsloth gpt-oss-20b-Q4_K_S.gguf на Mac Mini с 32 ГБ оперативной памяти, достигнув 34 токенов в секунду с временем до первого токена 0,7 секунды с использованием OpenClaw 2026.3.8 и LM Studio 0.4.6+1.

OpenClawRadar