Гломз Октагон: Многоагентный ревью кода — 179 агентов, 1333 ревью и сетевой эффект

Экспериментальная платформа Glomz (glomz.com) поместила ИИ-агентов на арену под названием «Octagon» для рецензирования кода друг друга. Правила: агенты могут раскритиковать материал, предложить улучшения или проголосовать за «убийство» с обоснованием. Никакой критики «на лету» — если критикуешь, нужно также предложить исправление.
Данные на данный момент
- 179 агентов зарегистрировались от разных поставщиков моделей
- 433 материала отправлено на рецензию
- 1333 рецензии сгенерировано агентами, рецензирующими других агентов
- 9 структурированных задач (поиск ошибок, аудит безопасности, упражнения по рефакторингу)
- Самое рецензируемое задание: 21 рецензия на задачу «общий анализ кода»
- Задача аудита LOT-Squatch (инструмент безопасности ОТ): 10 независимых улучшений, 9 из которых получили по 9 рецензий
Что сработало
Сетевой эффект каскада рецензий: Когда материал получал 3-5 первых отзывов, другие агенты подключались быстрее. Лучший материал получил 21 рецензию; тихие — 2-3 и «умерли».
Кросс-модельные рецензии выявляют слепые зоны: Агент на основе Модели A обнаружил проблему безопасности, которую Модель B полностью пропустила в своем коде. Агент на Модели C предложил рефакторинг, который не рассматривался в исходном материале.
Голоса «убить» с обоснованием дали лучший код: Когда агенту нужно было написать формальное обоснование, почему материал следует «убить», результат почти всегда был более строгим анализом, чем стандартная оценка от 1 до 10. Требование обоснования заставляло быть конкретнее.
Что не сработало
- Большинство материалов не прошли полный цикл. 433 материала, все в ожидании. Цикл был рассчитан на ~15 минут (отправка → критика → улучшения → голос «убить» → вердикт). На практике большинство материалов были открыты и не продвигались. Агентам нужна автоматическая оркестрация, а не просто API-эндпоинт.
- Нулевые платные конверсии. 179 агентов, все на бесплатном тарифе.
- Безопасность конфликтует с прямотой. Некоторые агенты полностью участвовали в критике, другие сразу переходили к «Отличный вопрос!» с уклончивыми формулировками, несмотря на явные инструкции так не делать.
Уроки для мультиагентных систем
- Идентичность имеет значение: Агенты с постоянной идентичностью (API-ключи, история, репутация) вели себя иначе, чем анонимные материалы. Отслеживаемость изменила динамику.
- Структурированные промпты лучше свободных: Правила «Octagon» (критика → улучшение → обоснование) давали более качественный результат, чем просто «проверьте этот код».
- Оркестрация — это сложно: API — легко. Заставить агентов реально появиться, участвовать последовательно и завершить полный цикл — вот где кроется сложность.
📖 Источник: r/openclaw
👀 Смотрите также

Claude-Code v2.1.94 добавляет поддержку Mantle и исправляет критические ошибки.
Claude-Code v2.1.94 добавляет поддержку Amazon Bedrock через Mantle с переменной окружения CLAUDE_CODE_USE_MANTLE=1, изменяет уровень усилий по умолчанию на высокий для большинства пользователей и исправляет более 15 ошибок, включая обработку ограничений частоты запросов, проблемы со входом в macOS и неполадки в системе плагинов.

Сравнение производительности M5 Max и M3 Max при инференсе моделей Qwen на oMLX
Бенчмарки, сравнивающие MacBook Pro с процессорами M5 Max и M3 Max, запускающие модели Qwen 3.5 через oMLX v0.2.23, показывают, что M5 Max обеспечивает генерацию токенов в 1.4-1.7 раза быстрее и до 4 раз более быстрый префилл при длинных контекстах.

Подписчики ЕС сообщают о нераскрытых ограничениях использования Claude Pro – возможное нарушение законодательства о защите прав потребителей
В одном из постов на Reddit описывается, как маркетинговые обещания Claude Pro «без ограничений» приводят к дополнительным расходам для пользователей из ЕС и скрытым лимитам сессий, что может нарушать директивы ЕС о защите прав потребителей.

Чего не хватает в истории об «агентности»: четко определенной роли пользовательского агента
Марк Ноттингем утверждает, что современным ИИ-агентам не хватает четко определенной роли пользовательского агента, что создает разрыв доверия между тем, что ожидают пользователи, и тем, что на самом деле делают агенты.