Open-Source Benchmark Runner для тестирования агентов OpenClaw на реальных рабочих процессах

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source
Open-Source Benchmark Runner для тестирования агентов OpenClaw на реальных рабочих процессах
Ad

Пользователь Reddit опубликовал инструмент с открытым исходным кодом под названием personal_agent_eval (репозиторий: github.com/javiersgjavi/personal_agent_eval) для оценки агентов OpenClaw на реалистичных, неструктурированных рабочих процессах — а не на публичных игрушечных наборах данных.

Рабочий процесс

Определите тестовые примеры как YAML-файлы, содержащие:

  • Входные сообщения
  • Ожидаемые артефакты
  • Критерии оценки
  • Детерминированные проверки
  • Профили запуска и профили оценки

Исполнитель запускает примеры в реальном экземпляре OpenClaw, сохраняет результаты, оценивает запуски и генерирует отчеты и диаграммы.

Ключевая особенность: импорт реального рабочего пространства

Вы можете импортировать свое реальное рабочее пространство OpenClaw — включая память, навыки, файлы, подсказки и контекст — вместо упрощенной имитации. Агент работает в реальном экземпляре OpenClaw, тестируя именно того агента, которого вы используете ежедневно.

Частные наборы оценки

Автор намеренно не публикует свои частные наборы оценки, чтобы избежать устаревания публичных бенчмарков. Однако репозиторий включает примеры случаев, конфигурации, профили оценки, детерминированные проверки и генерацию диаграмм, чтобы вы могли создать свой собственный частный набор.

Ad

SKILL.md для помощи агенту

Файл SKILL.md в репозитории предназначен для того, чтобы дать агенту достаточно контекста для помощи в определении новых тестовых примеров, профилей запуска, критериев оценки и детерминированных проверок — сокращая ручное редактирование.

Пример результатов (частный запуск автора)

Автор поделился сравнением одного запуска (метрика неясна, вероятно, средневзвешенное значение 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Интереснее баллов — типы отказов. Некоторые модели хорошо рассуждают, но неловко обращаются с инструментами; более дешевые модели ухудшаются на длинных или требующих состояния задачах; некоторые отказы связаны с поведением модели, другие — с граничными случаями OpenClaw/инструментария, выявленными бенчмарком.

Для кого это

Пользователи OpenClaw, которые запускают агентов для реальной работы и хотят сравнивать модели на своих частных задачах, а не спорить на основе интуиции или общих лидербордов.

📖 Читать полный источник: r/openclaw

Ad

👀 Смотрите также

VibeIndex.ai: Поисковая платформа для 90K+ AI-навыков, MCP и плагинов с проверкой безопасности
Инструменты

VibeIndex.ai: Поисковая платформа для 90K+ AI-навыков, MCP и плагинов с проверкой безопасности

Корейский исследователь ИИ создал vibeindex.ai, доступный для поиска хаб, который индексирует более 90 000 навыков ИИ, серверов MCP и плагинов с ежечасными обновлениями и проверкой безопасности с помощью Cisco Skill Scanner по 17 категориям угроз.

OpenClawRadar
Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.
Инструменты

Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.

Идеанатор — это CLI инструмент, разработанный самоучкой 19-летним разработчиком с использованием локальных LLM, таких как Ollama/MLX. Он преобразует неопределенные идеи в четко определенные концепции, полностью офлайн.

OpenClawRadar
Репозиторий Токенов: GitHub Action Добавляет Значок Подсчета Токенов для Осведомленности о Контекстном Окне LLM
Инструменты

Репозиторий Токенов: GitHub Action Добавляет Значок Подсчета Токенов для Осведомленности о Контекстном Окне LLM

Repo Tokens — это GitHub Action, который подсчитывает размер вашей кодовой базы в токенах с помощью tiktoken и добавляет в README значок, показывающий, какой процент контекстного окна языковой модели он заполняет. Значок использует зелёный цвет для менее 30%, жёлтый для 50-70% и красный для 70% и выше.

OpenClawRadar
Manifest добавляет поддержку планов токенов MiniMax с моделью M2.7
Инструменты

Manifest добавляет поддержку планов токенов MiniMax с моделью M2.7

Manifest, открытый маршрутизирующий слой для OpenClaw, теперь поддерживает тарифные планы MiniMax от $10/месяц. Новая модель MiniMax M2.7 специально обучена для рабочих процессов OpenClaw и набирает 62.7 балла на MM-ClawBench и 56.2 на SWE-Bench Pro.

OpenClawRadar