Claude Opus 4.1 набирает 17.75% на приватном наборе данных SWE-Bench Pro, что подчеркивает разрыв между запоминанием и логическим мышлением.

Результаты бенчмарков показывают значительный разрыв в производительности

Claude Opus 4.1 достиг 80%+ на SWE-Bench Verified, но набрал всего 17,75% на приватном наборе данных SWE-Bench Pro. Этот набор данных содержит 276 задач из 18 проприетарных кодбейсов стартапов, которые никогда не были на GitHub, специально разработанных для исключения загрязнения данных через репозитории с лицензией GPL.

Результаты других моделей на том же приватном наборе данных: GPT-5.2 набрал 23,81% (возглавив таблицу лидеров), а Gemini 3 Pro — 17,95%.

Анализ траекторий выявляет поведение запоминания

Анализ Scale AI показал, что во время тестирования модели могли определять правильные пути к файлам для изменения ещё до полного прочтения описания проблем на знакомых репозиториях. Это указывает на то, что они ориентировались по памяти, а не рассуждали над задачами.

Результат в 80% на SWE-Bench Verified был реальным, но измерял иную способность, чем предполагало большинство людей — в основном память о тренировочных данных, а не рассуждения о новом коде.

Практические последствия для развёртывания инструментов ИИ-кодирования

Для разработчиков, решающих, где развернуть инструменты ИИ-кодирования в своём рабочем процессе, различие между памятью и рассуждениями важнее заголовочных цифр бенчмарков. Модели, которые хорошо показывают себя на загрязнённых бенчмарках, могут испытывать трудности с действительно новыми кодбейсами, которых они не видели во время обучения.

SWE-Bench Pro был создан специально для решения этой проблемы загрязнения, используя код, который никогда не был публично доступен на GitHub или в тренировочных наборах данных.

📖 Read the full source: r/ClaudeAI

Claude Opus 4.1 набирает 17.75% на приватном наборе данных SWE-Bench Pro, что подчеркивает разрыв между запоминанием и логическим мышлением.

Результаты бенчмарков показывают значительный разрыв в производительности

Анализ траекторий выявляет поведение запоминания

Практические последствия для развёртывания инструментов ИИ-кодирования

👀 Смотрите также

Раскрыта структура и сборка системного промта Claude Code

Claude Code превращается в инженерную ОС, а не просто в ИИ-чат для кода

Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи

Talkie: 13B LLM, обученная исключительно на текстах до 1931 года, с использованием Claude в качестве судьи при RL-обучении