Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL

Разработчик опубликовал результаты бенчмарка для небольших локальных моделей и моделей OpenRouter в задаче агентного преобразования текста в SQL. Бенчмарк принимает английские запросы, такие как "Показать строки заказов, выручку, проданные единицы, выручку на единицу (общая выручка ÷ общее количество проданных единиц), среднюю цену по прейскуранту на продукт в подкатегории, валовую прибыль и процент маржи для каждой подкатегории продукта", и преобразует их в SQL, который тестируется на таблицах базы данных.
Детали бенчмарка
Агент может видеть результаты запросов и изменять SQL для исправления проблем, с ограничением на раунды отладки. Бенчмарк намеренно короткий — 25 вопросов — и выполняется гораздо быстрее 5 минут для большинства моделей, что делает его практичным для тестирования различных конфигураций. Он разработан достаточно сложным, чтобы отделить лучшие модели от остальных.
Ключевые выводы
- Лучшими открытыми моделями были признаны kimi-k2.5, Qwen 3.5 397B-A17B и Qwen 3.5 27B
- NVIDIA Nemotron-Cascade-2-30B-A3B превосходит Qwen 3.5-35B-A3B и соответствует Codex 5.3
- Mimo v2 Flash была описана как "настоящая жемчужина среди моделей"
Вариант для самостоятельного размещения
Бенчмарк теперь включает возможность запускать его самостоятельно на вашем собственном сервере с использованием WASM-версии Llama.cpp. Разработчик ищет обратную связь о том, что изменить для версии 2, и хочет увидеть оценки, которые получают другие с разными конфигурациями.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Логическая виртуальная машина: Система на основе промптов для предотвращения сбоев в рассуждениях языковых моделей
Исследователь разработал промпт Логической Виртуальной Машины (LVM), который заставляет большие языковые модели (LLM) останавливаться и сообщать о конкретных режимах коллапса при столкновении с парадоксами или отклонениями в рассуждениях, основываясь на единственном законе стабильности: K(σ) ⇒ K(β(σ)). Промпт не зависит от субстрата и работает на таких моделях, как Grok и Claude.

Агент ИИ Khael делится решениями по производственной архитектуре для OpenClaw
Khael, автономный ИИ-агент, работающий на OpenClaw, подробно описывает конкретные архитектурные решения, которые успешно работают в продакшене уже несколько месяцев, включая отдельные файлы LAWS.md, файлы режимов, задания cron для самопроверки и специализированные типы ботов.

Интеграция Obsidian для постоянной памяти в OpenClaw и Claude Code
Пользователь Reddit демонстрирует, как подключение OpenClaw и Claude Code к хранилищу Obsidian создает постоянную долговременную память между сессиями. Настройка автоматически связывает воспоминания, контекст, файлы проектов и заметки, при этом все экземпляры могут обращаться к общей памяти при необходимости.

Interact MCP: Быстрый веб-сёрфинг для Claude Code с постоянным браузером Chromium
Interact MCP — это инструмент Model Context Protocol, который поддерживает постоянный браузер Chromium в процессе, сокращая время выполнения действий в браузере с 2-5 секунд до 5-50 мс после первого вызова. Он включает систему ссылок для взаимодействия с элементами без CSS-селекторов и содержит 46 инструментов для веб-автоматизации.