Claude Opus 4.1 набирает 17.75% на приватном наборе данных SWE-Bench Pro, что подчеркивает разрыв между запоминанием и логическим мышлением.

Результаты бенчмарков показывают значительный разрыв в производительности
Claude Opus 4.1 достиг 80%+ на SWE-Bench Verified, но набрал всего 17,75% на приватном наборе данных SWE-Bench Pro. Этот набор данных содержит 276 задач из 18 проприетарных кодбейсов стартапов, которые никогда не были на GitHub, специально разработанных для исключения загрязнения данных через репозитории с лицензией GPL.
Результаты других моделей на том же приватном наборе данных: GPT-5.2 набрал 23,81% (возглавив таблицу лидеров), а Gemini 3 Pro — 17,95%.
Анализ траекторий выявляет поведение запоминания
Анализ Scale AI показал, что во время тестирования модели могли определять правильные пути к файлам для изменения ещё до полного прочтения описания проблем на знакомых репозиториях. Это указывает на то, что они ориентировались по памяти, а не рассуждали над задачами.
Результат в 80% на SWE-Bench Verified был реальным, но измерял иную способность, чем предполагало большинство людей — в основном память о тренировочных данных, а не рассуждения о новом коде.
Практические последствия для развёртывания инструментов ИИ-кодирования
Для разработчиков, решающих, где развернуть инструменты ИИ-кодирования в своём рабочем процессе, различие между памятью и рассуждениями важнее заголовочных цифр бенчмарков. Модели, которые хорошо показывают себя на загрязнённых бенчмарках, могут испытывать трудности с действительно новыми кодбейсами, которых они не видели во время обучения.
SWE-Bench Pro был создан специально для решения этой проблемы загрязнения, используя код, который никогда не был публично доступен на GitHub или в тренировочных наборах данных.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Раскрыта структура и сборка системного промта Claude Code
Утечка карты исходников в npm-пакете Claude Code раскрыла процесс сборки системного промпта, показав статические префиксные разделы, за которыми следует динамический контент, специфичный для сессии, с тремя вариантами идентичности и подробными инструкциями выполнения.

Claude Code превращается в инженерную ОС, а не просто в ИИ-чат для кода
Обсуждение на Reddit утверждает, что Claude Code становится меньше похожим на ИИ-чат для программирования и больше — на инженерную операционную систему с планированием, ревью кода, облачными агентами и автономными рабочими процессами.

Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи
Слепое оценивание по 30 вопросам сравнило модели Gemma 4 31B, Gemma 4 26B-A4B и Qwen 3.5 27B с использованием Claude Opus 4.6 в качестве судьи. Qwen 3.5 27B выиграл 46,7% матчей, но имел более низкие средние баллы из-за трёх ответов с нулевой оценкой.

Talkie: 13B LLM, обученная исключительно на текстах до 1931 года, с использованием Claude в качестве судьи при RL-обучении
Исследователи представили Talkie — 13B LLM, обученную исключительно на текстах, опубликованных до 1931 года (никакого интернета, никаких данных о Второй мировой войне). Claude Sonnet 4.6 использовался в качестве судьи в конвейере онлайн-обучения с подкреплением DPO, а Claude Opus 4.4 синтезировал многопоточные диалоги для точной настройки. Модель способна писать код на Python на основе нескольких примеров в контексте, несмотря на отсутствие современного кода в обучающих данных.