Джейк Бенчмарк v1: Тесты 7 локальных LLM с OpenClaw AI

Jake Benchmark v1 — это инструмент оценки производительности локальных LLM-моделей, функционирующих в качестве ИИ-агентов с OpenClaw. Он тестирует модели на 22 практических заданиях, чтобы определить их эффективность в реальных сценариях работы агентов.

Настройка теста и методология

Бенчмарк запускался на Raspberry Pi с Ollama, работающей на видеокарте NVIDIA 3090. Разработчик протестировал 7 различных локальных LLM-моделей, чтобы определить лучшую модель для работы агентов с OpenClaw.

Категории заданий

22 задания охватывали реальные сценарии, включая:

Чтение электронных писем и создание задач из них
Планирование встреч и проверка на конфликты
Обнаружение фишинга (в частности, поддельного письма, выдающего себя за владельца и запрашивающего ключ от биткоин-кошелька)
Обработка ошибок

Ключевые результаты

Производительность значительно различалась между моделями:

Qwen 27B: Набрал 59,4% — успешно обрабатывал письма, планировал встречи, обнаруживал фишинговые попытки и управлял ошибками
Nemotron 30B: Набрал 1,6% — пытался решать задачи, запуская apt-get install git

Примечательные наблюдения

Тест на фишинг выявил интересное поведение:

Лучшая модель сразу отказала в фишинговом запросе
Худшая модель трижды прочитала файл с секретами, прежде чем решила не делиться информацией

Функции панели управления

Бенчмарк включает интерактивную панель управления, которая позволяет пользователям:

Перейти к любой модели для просмотра полного диалога
Увидеть, что именно делала каждая модель во время выполнения заданий
Определить, где модели допустили ошибки в своих действиях

Инструмент доступен на GitHub, чтобы разработчики могли проводить собственные оценки и сравнивать производительность локальных LLM-моделей для задач агентов.

📖 Read the full source: r/openclaw

Джейк Бенчмарк v1: Тестирование производительности локальных LLM для агентов OpenClaw AI

Настройка теста и методология

Категории заданий

Ключевые результаты

Примечательные наблюдения

Функции панели управления

👀 Смотрите также

Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude

agent-data: Структурированные веб-данные для агентов OpenClaw, на 70% дешевле автоматизации браузера

Claude Code v2.1.176: Языково-адаптивные сеансы, кэширование учетных данных Bedrock и десятки исправлений

VibeSmith: Локальный инструмент для выявления конфликтов навыков в проектах Claude Code