Джейк Бенчмарк v1: Тестирование производительности локальных LLM для агентов OpenClaw AI

✍️ OpenClawRadar📅 Опубликовано: 23 марта 2026 г.🔗 Source
Джейк Бенчмарк v1: Тестирование производительности локальных LLM для агентов OpenClaw AI
Ad

Jake Benchmark v1 — это инструмент оценки производительности локальных LLM-моделей, функционирующих в качестве ИИ-агентов с OpenClaw. Он тестирует модели на 22 практических заданиях, чтобы определить их эффективность в реальных сценариях работы агентов.

Настройка теста и методология

Бенчмарк запускался на Raspberry Pi с Ollama, работающей на видеокарте NVIDIA 3090. Разработчик протестировал 7 различных локальных LLM-моделей, чтобы определить лучшую модель для работы агентов с OpenClaw.

Категории заданий

22 задания охватывали реальные сценарии, включая:

  • Чтение электронных писем и создание задач из них
  • Планирование встреч и проверка на конфликты
  • Обнаружение фишинга (в частности, поддельного письма, выдающего себя за владельца и запрашивающего ключ от биткоин-кошелька)
  • Обработка ошибок

Ключевые результаты

Производительность значительно различалась между моделями:

  • Qwen 27B: Набрал 59,4% — успешно обрабатывал письма, планировал встречи, обнаруживал фишинговые попытки и управлял ошибками
  • Nemotron 30B: Набрал 1,6% — пытался решать задачи, запуская apt-get install git
Ad

Примечательные наблюдения

Тест на фишинг выявил интересное поведение:

  • Лучшая модель сразу отказала в фишинговом запросе
  • Худшая модель трижды прочитала файл с секретами, прежде чем решила не делиться информацией

Функции панели управления

Бенчмарк включает интерактивную панель управления, которая позволяет пользователям:

  • Перейти к любой модели для просмотра полного диалога
  • Увидеть, что именно делала каждая модель во время выполнения заданий
  • Определить, где модели допустили ошибки в своих действиях

Инструмент доступен на GitHub, чтобы разработчики могли проводить собственные оценки и сравнивать производительность локальных LLM-моделей для задач агентов.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Навык OpenClaw atoship превращает AI-ассистента в менеджера по доставке.
Инструменты

Навык OpenClaw atoship превращает AI-ассистента в менеджера по доставке.

Навык atoship для OpenClaw позволяет пользователям описывать потребности в доставке простым английским языком, а затем система сама выбирает перевозчика, сравнивает тарифы, покупает этикетки и отслеживает отправления. Пример команд: 'отправь эту коробку весом 1 фунт в Нью-Йорк, самый дешёвый вариант'.

OpenClawRadar
Режим планирования кода Claude снижает процент переделок с 40% до почти нуля.
Инструменты

Режим планирования кода Claude снижает процент переделок с 40% до почти нуля.

Разработчик отследил более 30 сессий кодирования с Claude Code и обнаружил, что пропуск режима планирования приводит к переделке задач с нуля в 40% случаев. С использованием режима планирования процент переделок упал практически до нуля, при этом одна функция заняла всего 17 минут против 35+ минут без планирования.

OpenClawRadar
🦀
Инструменты

Claude Code против Codex: 36 против 28 файлов, $2.50 против $2.04, обнаружен бесконечный цикл — сравнение в реальных условиях

Разработчик запускает одни и те же две задачи на Claude Code и Codex (Cursor): бот для триажа PR и интерфейс ревью кода в реальном времени. Результаты: 36 против 28 файлов, $2.50 против $2.04, Claude допустил меньше ошибок TypeScript, Codex зациклился в React.

OpenClawRadar
Argyph: Единый MCP-сервер для Claude Code с 19 структурированными инструментами анализа кода
Инструменты

Argyph: Единый MCP-сервер для Claude Code с 19 структурированными инструментами анализа кода

Argyph — это локальный MCP-сервер, который предоставляет Claude Code 19 инструментов: переход к определению, поиск ссылок, графы вызовов, семантический поиск, упаковка репозитория с учётом токенов. Всё это заменяет несколько отдельных MCP-серверов одной установкой. Ключ API не требуется; вся обработка остаётся на вашем компьютере.

OpenClawRadar