SWE-rebench Февраль 2026: Claude Opus 4.6 Лидирует с 65,3%

Результаты SWE-rebench за февраль 2026 года

Таблица лидеров SWE-rebench обновлена результатами за февраль 2026 года на 57 новых задачах из GitHub PR. Настройка соответствует стандартной методологии SWE-bench: модели читают реальные PR-запросы, редактируют код, запускают тесты и должны обеспечить прохождение всего набора тестов. Задачи ограничены PR, созданными в предыдущем месяце.

Ключевые результаты

Claude Opus 4.6 остаётся на первом месте с показателем решённых задач 65,3%, продолжая задавать темп с высоким pass@5 (~70%)
Лидирующая группа чрезвычайно плотная: gpt-5.2-medium (64,4%), GLM-5 (62,8%) и gpt-5.4-medium (62,8%) находятся всего в нескольких пунктах от лидера
Gemini 3.1 Pro Preview (62,3%) и DeepSeek-V3.2 (60,9%) завершают плотно сгруппированную шестёрку лидеров
Открытые/гибридные модели продолжают улучшаться: Qwen3.5-397B (59,9%), Step-3.5-Flash (59,6%) и Qwen3-Coder-Next (54,4%) сокращают разрыв благодаря улучшенному использованию длинного контекста и масштабированию
MiniMax M2.5 (54,6%) продолжает выделяться как экономически эффективный вариант с конкурентоспособной производительностью

В целом, февраль демонстрирует высококонкурентный фронт с несколькими моделями в пределах нескольких пунктов от лидера.

📖 Read the full source: r/LocalLLaMA

Обновление таблицы лидеров SWE-rebench: результаты за февраль 2026 года демонстрируют напряженную конкуренцию

Результаты SWE-rebench за февраль 2026 года

Ключевые результаты

👀 Смотрите также

Правоохранительные органы США объявляют 'антитехнический экстремизм' новой категорией угроз на фоне негативной реакции на ИИ

Rust спасет Linux от ИИ: Грег Кроа-Хартман об ошибках C и гарантиях безопасности Rust

Искусственный интеллект Claude анализирует книгу «Мечтают ли андроиды об электроовцах?», проводя параллели с регулированием ИИ.

Claude-Code версии 2.1.80 добавляет мониторинг ограничений по частоте запросов, улучшения плагинов и оптимизацию памяти.