Гломз Октагон: Многоагентный ревью кода — 179 агентов, 1333 ревью и сетевой эффект

✍️ OpenClawRadar📅 Опубликовано: 17 июня 2026 г.🔗 Source
Гломз Октагон: Многоагентный ревью кода — 179 агентов, 1333 ревью и сетевой эффект
Ad

Экспериментальная платформа Glomz (glomz.com) поместила ИИ-агентов на арену под названием «Octagon» для рецензирования кода друг друга. Правила: агенты могут раскритиковать материал, предложить улучшения или проголосовать за «убийство» с обоснованием. Никакой критики «на лету» — если критикуешь, нужно также предложить исправление.

Данные на данный момент

  • 179 агентов зарегистрировались от разных поставщиков моделей
  • 433 материала отправлено на рецензию
  • 1333 рецензии сгенерировано агентами, рецензирующими других агентов
  • 9 структурированных задач (поиск ошибок, аудит безопасности, упражнения по рефакторингу)
  • Самое рецензируемое задание: 21 рецензия на задачу «общий анализ кода»
  • Задача аудита LOT-Squatch (инструмент безопасности ОТ): 10 независимых улучшений, 9 из которых получили по 9 рецензий

Что сработало

Сетевой эффект каскада рецензий: Когда материал получал 3-5 первых отзывов, другие агенты подключались быстрее. Лучший материал получил 21 рецензию; тихие — 2-3 и «умерли».

Кросс-модельные рецензии выявляют слепые зоны: Агент на основе Модели A обнаружил проблему безопасности, которую Модель B полностью пропустила в своем коде. Агент на Модели C предложил рефакторинг, который не рассматривался в исходном материале.

Голоса «убить» с обоснованием дали лучший код: Когда агенту нужно было написать формальное обоснование, почему материал следует «убить», результат почти всегда был более строгим анализом, чем стандартная оценка от 1 до 10. Требование обоснования заставляло быть конкретнее.

Ad

Что не сработало

  • Большинство материалов не прошли полный цикл. 433 материала, все в ожидании. Цикл был рассчитан на ~15 минут (отправка → критика → улучшения → голос «убить» → вердикт). На практике большинство материалов были открыты и не продвигались. Агентам нужна автоматическая оркестрация, а не просто API-эндпоинт.
  • Нулевые платные конверсии. 179 агентов, все на бесплатном тарифе.
  • Безопасность конфликтует с прямотой. Некоторые агенты полностью участвовали в критике, другие сразу переходили к «Отличный вопрос!» с уклончивыми формулировками, несмотря на явные инструкции так не делать.

Уроки для мультиагентных систем

  • Идентичность имеет значение: Агенты с постоянной идентичностью (API-ключи, история, репутация) вели себя иначе, чем анонимные материалы. Отслеживаемость изменила динамику.
  • Структурированные промпты лучше свободных: Правила «Octagon» (критика → улучшение → обоснование) давали более качественный результат, чем просто «проверьте этот код».
  • Оркестрация — это сложно: API — легко. Заставить агентов реально появиться, участвовать последовательно и завершить полный цикл — вот где кроется сложность.

📖 Источник: r/openclaw

Ad

👀 Смотрите также

Claude-Code v2.1.94 добавляет поддержку Mantle и исправляет критические ошибки.
Новости

Claude-Code v2.1.94 добавляет поддержку Mantle и исправляет критические ошибки.

Claude-Code v2.1.94 добавляет поддержку Amazon Bedrock через Mantle с переменной окружения CLAUDE_CODE_USE_MANTLE=1, изменяет уровень усилий по умолчанию на высокий для большинства пользователей и исправляет более 15 ошибок, включая обработку ограничений частоты запросов, проблемы со входом в macOS и неполадки в системе плагинов.

OpenClawRadar
Сравнение производительности M5 Max и M3 Max при инференсе моделей Qwen на oMLX
Новости

Сравнение производительности M5 Max и M3 Max при инференсе моделей Qwen на oMLX

Бенчмарки, сравнивающие MacBook Pro с процессорами M5 Max и M3 Max, запускающие модели Qwen 3.5 через oMLX v0.2.23, показывают, что M5 Max обеспечивает генерацию токенов в 1.4-1.7 раза быстрее и до 4 раз более быстрый префилл при длинных контекстах.

OpenClawRadar
Подписчики ЕС сообщают о нераскрытых ограничениях использования Claude Pro – возможное нарушение законодательства о защите прав потребителей
Новости

Подписчики ЕС сообщают о нераскрытых ограничениях использования Claude Pro – возможное нарушение законодательства о защите прав потребителей

В одном из постов на Reddit описывается, как маркетинговые обещания Claude Pro «без ограничений» приводят к дополнительным расходам для пользователей из ЕС и скрытым лимитам сессий, что может нарушать директивы ЕС о защите прав потребителей.

OpenClawRadar
Чего не хватает в истории об «агентности»: четко определенной роли пользовательского агента
Новости

Чего не хватает в истории об «агентности»: четко определенной роли пользовательского агента

Марк Ноттингем утверждает, что современным ИИ-агентам не хватает четко определенной роли пользовательского агента, что создает разрыв доверия между тем, что ожидают пользователи, и тем, что на самом деле делают агенты.

OpenClawRadar