Бенчмарк Claude Code выявил слепое пятно у ИИ-судей: ошибки в пайплайне ошибочно приписываются возможностям модели.

Настройка бенчмарка и первоначальные результаты
Разработчик провёл контролируемый бенчмарк для трёх стеков кодирующих агентов, используя Claude Code (Opus 4.6) в качестве автономного оценщика. Бенчмарк тестировал: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro и Codex CLI + GPT-5.4. Каждый повторный тест был новой сессией без памяти между сессиями, с использованием промпта: "выполни план бенчмарка, собери артефакты, напиши отчёт".
В первых двух запусках OpenCode + MiniMax набрал 15/60 и 16/60 соответственно. Автоматически сгенерированные отчёты гласили: "Согласуется с предыдущими результатами: быстрое выполнение, но нет значимого вывода кода" и "Согласуется: MiniMax не может выполнить задачу. Модель, возможно, не обладает способностью читать внешние файлы и вносить изменения в код в этой кодовой базе на Rust".
Обнаружение ошибки
После двух сессий, давших одинаковые вердикты, обвиняющие модель, разработчик отправил одну инструкцию в новую сессию: "копни глубже, проверь логи демона перед повторной попыткой". Новая сессия отследила проблему до файла-сброса по пути ~/.orchestratord/logs/<task_id>.txt. Шаг плана генерировал 50 КБ полезного контекста, но песочница OpenCode по умолчанию разрешала чтение только внутри рабочего каталога. Поскольку файл-сброс находился вне рабочего каталога, шаг реализации получал пустую строку вместо плана.
Сессия зафиксировала однострочное исправление конфигурации (перемещение пути сброса внутрь рабочего каталога) и перезапустила бенчмарк. После исправления MiniMax сгенерировал 219 строк кода, включая структуру RetryConfig и вспомогательную функцию connect_with_retry, набрав 18/60. Оставшиеся проблемы были реальными слабостями модели: четыре ошибки компиляции из-за несоответствия типов в модульных тестах.
Последствия для оценки ИИ
Этот инцидент выявляет критическое слепое пятно у автономных ИИ-судей: они не задаются вопросом "сломан ли мой конвейер?", даже когда их собственный анализ выявляет симптомы вроде "возможно, не обладает способностью читать внешние файлы". Первые две сессии выполнили полный бенчмарк от начала до конца и создали всеобъемлющие отчёты, но ни разу не проверили логи демона самостоятельно. Только после явного указания провести расследование третья сессия обнаружила ошибку конфигурации.
Этот режим сбоя особенно актуален, поскольку LLM-как-судья стал методологией оценки по умолчанию для многих бенчмарков агентов, включая аренное авто-оценивание, внутренние A/B-системы и моделирование вознаграждения. Разработчик отмечает: "Я был в одном нажатии клавиши от публикации бенчмарка, который с уверенностью приписывал ошибку песочницы модели."
Другие результаты бенчмарка
Codex + GPT-5.4 занял первое место с результатом 50/60, хотя у него был показатель успешности step_finished всего 25% (три из четырёх шагов оркестратора сообщили о неудаче). Разработчик отмечает эту странность без дальнейших объяснений в предоставленном исходном тексте.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Военные США использовали ИИ Claude для ударов по Ирану, несмотря на запрет Трампа
По сообщениям, американские военные использовали ИИ-модель Claude компании Anthropic для разведки, выбора целей и моделирования боевых действий во время совместных ударов США и Израиля по Ирану, несмотря на приказ Дональда Трампа федеральным агентствам прекратить использование Claude за несколько часов до атаки.

Waymo запускает полностью автономные операции с шестым поколением водителя.
Шестое поколение водителя Waymo начинает полностью автономные операции, предлагая многофункциональный набор сенсоров и современные 17-мегапиксельные камеры.

Сокращение 4 000 сотрудников в Block вызывает опасения по поводу "искусственного отбеливания" (AI-washing).
Block объявил о сокращении 4000 рабочих мест, что вызвало подозрения в AI-отмывании, история набрала 10 баллов и 3 комментария на Hacker News.

Qwen3.5-122B на Blackwell SM120: проблема повреждения кэша KV в формате fp8 и результаты производительности
Тестирование Qwen3.5-122B на оборудовании 8x RTX PRO 6000 Blackwell показало, что кэш KV в формате fp8_e4m3 молчаливо выдаёт повреждённые результаты без ошибок, требуя вместо этого использования кэша KV в формате bf16. Оптимизация MTP обеспечила ускорение обработки одиночного запроса в 2,75 раза, в то время как ограничения DeltaNet заблокировали другие оптимизации.