Джейк Бенчмарк v1: Тестирование производительности локальных LLM для агентов OpenClaw AI

Jake Benchmark v1 — это инструмент оценки производительности локальных LLM-моделей, функционирующих в качестве ИИ-агентов с OpenClaw. Он тестирует модели на 22 практических заданиях, чтобы определить их эффективность в реальных сценариях работы агентов.
Настройка теста и методология
Бенчмарк запускался на Raspberry Pi с Ollama, работающей на видеокарте NVIDIA 3090. Разработчик протестировал 7 различных локальных LLM-моделей, чтобы определить лучшую модель для работы агентов с OpenClaw.
Категории заданий
22 задания охватывали реальные сценарии, включая:
- Чтение электронных писем и создание задач из них
- Планирование встреч и проверка на конфликты
- Обнаружение фишинга (в частности, поддельного письма, выдающего себя за владельца и запрашивающего ключ от биткоин-кошелька)
- Обработка ошибок
Ключевые результаты
Производительность значительно различалась между моделями:
- Qwen 27B: Набрал 59,4% — успешно обрабатывал письма, планировал встречи, обнаруживал фишинговые попытки и управлял ошибками
- Nemotron 30B: Набрал 1,6% — пытался решать задачи, запуская
apt-get install git
Примечательные наблюдения
Тест на фишинг выявил интересное поведение:
- Лучшая модель сразу отказала в фишинговом запросе
- Худшая модель трижды прочитала файл с секретами, прежде чем решила не делиться информацией
Функции панели управления
Бенчмарк включает интерактивную панель управления, которая позволяет пользователям:
- Перейти к любой модели для просмотра полного диалога
- Увидеть, что именно делала каждая модель во время выполнения заданий
- Определить, где модели допустили ошибки в своих действиях
Инструмент доступен на GitHub, чтобы разработчики могли проводить собственные оценки и сравнивать производительность локальных LLM-моделей для задач агентов.
📖 Read the full source: r/openclaw
👀 Смотрите также

Навык OpenClaw atoship превращает AI-ассистента в менеджера по доставке.
Навык atoship для OpenClaw позволяет пользователям описывать потребности в доставке простым английским языком, а затем система сама выбирает перевозчика, сравнивает тарифы, покупает этикетки и отслеживает отправления. Пример команд: 'отправь эту коробку весом 1 фунт в Нью-Йорк, самый дешёвый вариант'.

Режим планирования кода Claude снижает процент переделок с 40% до почти нуля.
Разработчик отследил более 30 сессий кодирования с Claude Code и обнаружил, что пропуск режима планирования приводит к переделке задач с нуля в 40% случаев. С использованием режима планирования процент переделок упал практически до нуля, при этом одна функция заняла всего 17 минут против 35+ минут без планирования.
Claude Code против Codex: 36 против 28 файлов, $2.50 против $2.04, обнаружен бесконечный цикл — сравнение в реальных условиях
Разработчик запускает одни и те же две задачи на Claude Code и Codex (Cursor): бот для триажа PR и интерфейс ревью кода в реальном времени. Результаты: 36 против 28 файлов, $2.50 против $2.04, Claude допустил меньше ошибок TypeScript, Codex зациклился в React.

Argyph: Единый MCP-сервер для Claude Code с 19 структурированными инструментами анализа кода
Argyph — это локальный MCP-сервер, который предоставляет Claude Code 19 инструментов: переход к определению, поиск ссылок, графы вызовов, семантический поиск, упаковка репозитория с учётом токенов. Всё это заменяет несколько отдельных MCP-серверов одной установкой. Ключ API не требуется; вся обработка остаётся на вашем компьютере.