Бенчмарк Claude Code выявил слепое пятно у ИИ-судей: ошибки в пайплайне ошибочно приписываются возможностям модели.

✍️ OpenClawRadar📅 Опубликовано: 16 апреля 2026 г.🔗 Source

Настройка бенчмарка и первоначальные результаты

Разработчик провёл контролируемый бенчмарк для трёх стеков кодирующих агентов, используя Claude Code (Opus 4.6) в качестве автономного оценщика. Бенчмарк тестировал: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro и Codex CLI + GPT-5.4. Каждый повторный тест был новой сессией без памяти между сессиями, с использованием промпта: "выполни план бенчмарка, собери артефакты, напиши отчёт".

В первых двух запусках OpenCode + MiniMax набрал 15/60 и 16/60 соответственно. Автоматически сгенерированные отчёты гласили: "Согласуется с предыдущими результатами: быстрое выполнение, но нет значимого вывода кода" и "Согласуется: MiniMax не может выполнить задачу. Модель, возможно, не обладает способностью читать внешние файлы и вносить изменения в код в этой кодовой базе на Rust".

Обнаружение ошибки

После двух сессий, давших одинаковые вердикты, обвиняющие модель, разработчик отправил одну инструкцию в новую сессию: "копни глубже, проверь логи демона перед повторной попыткой". Новая сессия отследила проблему до файла-сброса по пути ~/.orchestratord/logs/<task_id>.txt. Шаг плана генерировал 50 КБ полезного контекста, но песочница OpenCode по умолчанию разрешала чтение только внутри рабочего каталога. Поскольку файл-сброс находился вне рабочего каталога, шаг реализации получал пустую строку вместо плана.

Сессия зафиксировала однострочное исправление конфигурации (перемещение пути сброса внутрь рабочего каталога) и перезапустила бенчмарк. После исправления MiniMax сгенерировал 219 строк кода, включая структуру RetryConfig и вспомогательную функцию connect_with_retry, набрав 18/60. Оставшиеся проблемы были реальными слабостями модели: четыре ошибки компиляции из-за несоответствия типов в модульных тестах.

Последствия для оценки ИИ

Этот инцидент выявляет критическое слепое пятно у автономных ИИ-судей: они не задаются вопросом "сломан ли мой конвейер?", даже когда их собственный анализ выявляет симптомы вроде "возможно, не обладает способностью читать внешние файлы". Первые две сессии выполнили полный бенчмарк от начала до конца и создали всеобъемлющие отчёты, но ни разу не проверили логи демона самостоятельно. Только после явного указания провести расследование третья сессия обнаружила ошибку конфигурации.

Этот режим сбоя особенно актуален, поскольку LLM-как-судья стал методологией оценки по умолчанию для многих бенчмарков агентов, включая аренное авто-оценивание, внутренние A/B-системы и моделирование вознаграждения. Разработчик отмечает: "Я был в одном нажатии клавиши от публикации бенчмарка, который с уверенностью приписывал ошибку песочницы модели."

Другие результаты бенчмарка

Codex + GPT-5.4 занял первое место с результатом 50/60, хотя у него был показатель успешности step_finished всего 25% (три из четырёх шагов оркестратора сообщили о неудаче). Разработчик отмечает эту странность без дальнейших объяснений в предоставленном исходном тексте.

📖 Прочитать полный источник: r/LocalLLaMA

👀 Смотрите также

Новости

Википедия запрещает контент, созданный искусственным интеллектом, и разрешает ограниченное использование ИИ с проверкой человеком

Википедия официально запретила своим 260 000 редакторам использовать ИИ, такой как ChatGPT, для написания статей, ссылаясь на проблемы с точностью и надежностью. Редакторы по-прежнему могут использовать ИИ для перевода и корректуры с одобрения человека.

29 мар. 2026 г., 18:45 UTC

OpenClawRadar

Новости

Приложение Claude заняло второе место в американском App Store после спора с Пентагоном

Чат-бот Anthropic Claude поднялся на второе место среди бесплатных приложений в американском магазине приложений Apple, поднявшись с позиции за пределами топ-100 в конце января до второго места к концу февраля 2026 года. Этот всплеск последовал за публичными переговорами компании с Пентагоном об ограничениях использования ИИ.

1 мар. 2026 г., 01:45 UTC

OpenClawRadar

Новости

Claude.ai в настоящее время не работает, ошибки API участились — 28 апреля 2026 г.

Автоматическое обновление статуса, запущенное с официальной страницы статуса Claude, сообщает, что Claude.ai недоступен, а API испытывает повышенный уровень ошибок по состоянию на 2026-04-28T17:51:36.000Z.

28 апр. 2026 г., 18:17 UTC

OpenClawRadar

Новости

Стратегия Mistral с открытыми весами: оценка в $14 млрд на суверенитете, а не на бенчмарках

Mistral построил империю ИИ стоимостью $14 млрд, предлагая модели с открытым весом для правительств и предприятий, стремящихся к независимости от американских и китайских технологий. Выручка достигла $200 млн в 2025 году, с целью $80 млн в месяц к декабрю 2026 года.

27 апр. 2026 г., 12:15 UTC

OpenClawRadar