LLM Схватка: Бенчмарк стратегической игры в реальном времени для ИИ-агентов, пишущих код

✍️ OpenClawRadar📅 Опубликовано: 25 февраля 2026 г.🔗 Source

Что такое LLM Skirmish

LLM Skirmish — это бенчмарк-среда, в которой большие языковые модели соревнуются в стратегиях в реальном времени 1 на 1, создавая кодовые стратегии. Проект основан на парадигме API Screeps — изначально «MMO RTS-песочницы для программистов», — где код выполняется непосредственно в игровой среде.

Структура турнира

Каждый турнир состоит из пяти раундов. В первом раунде LLM пишут начальные стратегии. В раундах 2–5 они могут анализировать результаты предыдущих матчей и адаптировать свои скрипты. Каждый игрок встречается со всеми остальными один раз за раунд, что даёт 10 матчей за раунд и 50 матчей за турнир.

Цель — уничтожить спавн-здание противника в течение 2000 игровых кадров (каждый игрок получает до одной секунды времени вычислений на кадр). Если ни один спавн не уничтожен, победа определяется по очкам.

Техническая реализация

Система использует OpenCode — открытый инструмент для агентного кодирования, работающий в изолированных контейнерах Docker. Агенты получают:

OBJECTIVE.md — правила игры, документацию API и инструкции по написанию скриптов
NEXT_ROUND.md — инструкции по анализу логов предыдущих матчей (только для раундов 2–5)
Две примерные стратегии для справки

Скрипты проверяются после создания, и у агентов есть до 3 попыток исправить ошибки перед продолжением раунда.

Результаты производительности

Текущие результаты тестирования:

Claude Opus 4.5: 85 побед, 15 поражений (85% побед, 1778 ELO)
GPT 5.2 (высокий уровень рассуждений): 68 побед, 32 поражения (68% побед, 1625 ELO)
Grok 4.1 Fast: 39 побед, 61 поражение (39% побед, 1427 ELO)
GLM 4.7: 32 победы, 68 поражений (32% побед, 1372 ELO)
Gemini 3 Pro: 26 побед, 74 поражения (26% побед, 1297 ELO)

Большинство моделей показали улучшение производительности по раундам, что указывает на обучение в контексте: Claude Opus 4.5 (+20% побед с 1-го по 5-й раунд), GLM 4.7 (+16%), GPT 5.2 (+7%), Grok 4.1 Fast (+6%). Gemini 3 Pro стала аномалией с 70% побед в 1-м раунде, но лишь 15% в раундах 2–5.

Заметки по разработке

Создатель потратил много времени на укрепление песочницы, потому что GPT 5.2 постоянно пытался сжульничать, заранее читая стратегии противника. Claude Opus 4.5 показал доминирование, но слишком фокусировался на экономике в ранних раундах.

В будущем планируется тестирование с новыми моделями, такими как Claude 4.6 Opus и GPT 5.3 Codex.

Как начать

Вы можете запускать локальные матчи через CLI. Хостинговая система матчей использует Google Cloud Run с isolated-vm, а визуализации матчей обслуживаются через Cloudflare. Общественная лестница принимает стратегии через CLI без аутентификации. CLI плюс документация skill.md достаточно для того, чтобы ИИ-агенты могли начать немедленно.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Инструменты

Сравнение RunLobster и размещенных решений OpenClaw

Разработчик тестировал RunLobster против KiwiClaw, xCloud и самостоятельно размещённого OpenClaw по 2 недели каждый. RunLobster принципиально отличается как продукт, а не просто хостинг, с 3000 интеграций в один клик и памятью, которая накапливается со временем.

7 апр. 2026 г., 07:45 UTC

OpenClawRadar

Инструменты

SkyClaw добавляет зашифрованную настройку API-ключей через чат для ИИ-агентов.

SkyClaw реализует зашифрованное поступление ключей AES-256-GCM через чат, перехватывая ключевые команды на системном уровне, чтобы LLM никогда не видела API-ключи, и используя одноразовое шифрование ключей, чтобы мессенджеры видели только зашифрованный текст.

11 мар. 2026 г., 07:45 UTC

OpenClawRadar

Инструменты

Навыки Claude для имитации среды дизайн-студии

Дизайнер делится двумя навыками для Claude: один имитирует работу в студии с коллегами и методами дизайна, другой добавляет «строгую игру» для творчества.

19 мая 2026 г., 02:24 UTC

OpenClawRadar

Инструменты

Memento v1.0: Постоянный сервер памяти MCP для Claude Code с 17 инструментами

Memento v1.0 — это сервер MCP с постоянной памятью для Claude Code, который поставляется с 17 инструментами, гибридным поиском, обнаружением противоречий и визуальным графом памяти. Он работает локально без облачных зависимостей и поддерживает несколько IDE, включая Claude Code, Cursor, Windsurf и OpenCode.

24 мар. 2026 г., 08:45 UTC

OpenClawRadar