Open-Source Benchmark Runner для тестирования агентов OpenClaw на реальных рабочих процессах

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source

Пользователь Reddit опубликовал инструмент с открытым исходным кодом под названием personal_agent_eval (репозиторий: github.com/javiersgjavi/personal_agent_eval) для оценки агентов OpenClaw на реалистичных, неструктурированных рабочих процессах — а не на публичных игрушечных наборах данных.

Рабочий процесс

Определите тестовые примеры как YAML-файлы, содержащие:

Входные сообщения
Ожидаемые артефакты
Критерии оценки
Детерминированные проверки
Профили запуска и профили оценки

Исполнитель запускает примеры в реальном экземпляре OpenClaw, сохраняет результаты, оценивает запуски и генерирует отчеты и диаграммы.

Ключевая особенность: импорт реального рабочего пространства

Вы можете импортировать свое реальное рабочее пространство OpenClaw — включая память, навыки, файлы, подсказки и контекст — вместо упрощенной имитации. Агент работает в реальном экземпляре OpenClaw, тестируя именно того агента, которого вы используете ежедневно.

Частные наборы оценки

Автор намеренно не публикует свои частные наборы оценки, чтобы избежать устаревания публичных бенчмарков. Однако репозиторий включает примеры случаев, конфигурации, профили оценки, детерминированные проверки и генерацию диаграмм, чтобы вы могли создать свой собственный частный набор.

SKILL.md для помощи агенту

Файл SKILL.md в репозитории предназначен для того, чтобы дать агенту достаточно контекста для помощи в определении новых тестовых примеров, профилей запуска, критериев оценки и детерминированных проверок — сокращая ручное редактирование.

Пример результатов (частный запуск автора)

Автор поделился сравнением одного запуска (метрика неясна, вероятно, средневзвешенное значение 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Интереснее баллов — типы отказов. Некоторые модели хорошо рассуждают, но неловко обращаются с инструментами; более дешевые модели ухудшаются на длинных или требующих состояния задачах; некоторые отказы связаны с поведением модели, другие — с граничными случаями OpenClaw/инструментария, выявленными бенчмарком.

Для кого это

Пользователи OpenClaw, которые запускают агентов для реальной работы и хотят сравнивать модели на своих частных задачах, а не спорить на основе интуиции или общих лидербордов.

📖 Читать полный источник: r/openclaw

👀 Смотрите также

Инструменты

Анализ инструментов AI для программирования: Разбор 3,177 API-вызовов

Технический анализ 3,177 API-запросов раскрывает, как четыре инструмента ИИ для кодирования управляют контекстными окнами, выявляя неэффективности и различия.

20 февр. 2026 г., 01:45 UTC

OpenClawRadar

Инструменты

Пользователь Reddit делится инструментом ИИ для сбора балансо банковских счетов.

Сообщение на Reddit в r/openclaw представляет собой AI-агента, разработанного для упрощения сбора балансов финансовых счетов с использованием Python. Пользователи обсуждают потенциал автоматизации с помощью пользовательских скриптов, использующих API, такие как Plaid.

11 февр. 2026 г., 16:45 UTC

OpenClawRadar

Инструменты

Сделай Дело: Мета-система промптов для ИИ-агентов в программировании

Get Shit Done — это система мета-промптов, инженерии контекста и разработки на основе спецификаций, которая работает с Claude Code, OpenCode, Gemini CLI, Codex, Copilot и Antigravity. Она решает проблему «гниения контекста» за счёт структурированных промптов и рабочих процессов проверки.

20 мар. 2026 г., 11:45 UTC

OpenClawRadar

Инструменты

Тест Flash-MOE на M5 Max: 12.99 токенов в секунду с моделью Qwen3.5-397B.

Тестирование модели Qwen3.5 с 397 миллиардами параметров, запущенной локально на MacBook Pro M5 Max с 128 ГБ оперативной памяти, показало скорость 12,99 токенов в секунду при использовании 4-битного квантования и настройки cache-io-split 4, что в три раза быстрее исходного теста с 48 ГБ памяти.

31 мар. 2026 г., 04:45 UTC

OpenClawRadar