Claude Opus 4.1 набирает 17.75% на приватном наборе данных SWE-Bench Pro, что подчеркивает разрыв между запоминанием и логическим мышлением.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Claude Opus 4.1 набирает 17.75% на приватном наборе данных SWE-Bench Pro, что подчеркивает разрыв между запоминанием и логическим мышлением.
Ad

Результаты бенчмарков показывают значительный разрыв в производительности

Claude Opus 4.1 достиг 80%+ на SWE-Bench Verified, но набрал всего 17,75% на приватном наборе данных SWE-Bench Pro. Этот набор данных содержит 276 задач из 18 проприетарных кодбейсов стартапов, которые никогда не были на GitHub, специально разработанных для исключения загрязнения данных через репозитории с лицензией GPL.

Результаты других моделей на том же приватном наборе данных: GPT-5.2 набрал 23,81% (возглавив таблицу лидеров), а Gemini 3 Pro — 17,95%.

Анализ траекторий выявляет поведение запоминания

Анализ Scale AI показал, что во время тестирования модели могли определять правильные пути к файлам для изменения ещё до полного прочтения описания проблем на знакомых репозиториях. Это указывает на то, что они ориентировались по памяти, а не рассуждали над задачами.

Результат в 80% на SWE-Bench Verified был реальным, но измерял иную способность, чем предполагало большинство людей — в основном память о тренировочных данных, а не рассуждения о новом коде.

Ad

Практические последствия для развёртывания инструментов ИИ-кодирования

Для разработчиков, решающих, где развернуть инструменты ИИ-кодирования в своём рабочем процессе, различие между памятью и рассуждениями важнее заголовочных цифр бенчмарков. Модели, которые хорошо показывают себя на загрязнённых бенчмарках, могут испытывать трудности с действительно новыми кодбейсами, которых они не видели во время обучения.

SWE-Bench Pro был создан специально для решения этой проблемы загрязнения, используя код, который никогда не был публично доступен на GitHub или в тренировочных наборах данных.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Раскрыта структура и сборка системного промта Claude Code
Новости

Раскрыта структура и сборка системного промта Claude Code

Утечка карты исходников в npm-пакете Claude Code раскрыла процесс сборки системного промпта, показав статические префиксные разделы, за которыми следует динамический контент, специфичный для сессии, с тремя вариантами идентичности и подробными инструкциями выполнения.

OpenClawRadar
Claude Code превращается в инженерную ОС, а не просто в ИИ-чат для кода
Новости

Claude Code превращается в инженерную ОС, а не просто в ИИ-чат для кода

Обсуждение на Reddit утверждает, что Claude Code становится меньше похожим на ИИ-чат для программирования и больше — на инженерную операционную систему с планированием, ревью кода, облачными агентами и автономными рабочими процессами.

OpenClawRadar
Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи
Новости

Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи

Слепое оценивание по 30 вопросам сравнило модели Gemma 4 31B, Gemma 4 26B-A4B и Qwen 3.5 27B с использованием Claude Opus 4.6 в качестве судьи. Qwen 3.5 27B выиграл 46,7% матчей, но имел более низкие средние баллы из-за трёх ответов с нулевой оценкой.

OpenClawRadar
Talkie: 13B LLM, обученная исключительно на текстах до 1931 года, с использованием Claude в качестве судьи при RL-обучении
Новости

Talkie: 13B LLM, обученная исключительно на текстах до 1931 года, с использованием Claude в качестве судьи при RL-обучении

Исследователи представили Talkie — 13B LLM, обученную исключительно на текстах, опубликованных до 1931 года (никакого интернета, никаких данных о Второй мировой войне). Claude Sonnet 4.6 использовался в качестве судьи в конвейере онлайн-обучения с подкреплением DPO, а Claude Opus 4.4 синтезировал многопоточные диалоги для точной настройки. Модель способна писать код на Python на основе нескольких примеров в контексте, несмотря на отсутствие современного кода в обучающих данных.

OpenClawRadar