Обновление таблицы лидеров SWE-rebench: результаты за февраль 2026 года демонстрируют напряженную конкуренцию

Результаты SWE-rebench за февраль 2026 года
Таблица лидеров SWE-rebench обновлена результатами за февраль 2026 года на 57 новых задачах из GitHub PR. Настройка соответствует стандартной методологии SWE-bench: модели читают реальные PR-запросы, редактируют код, запускают тесты и должны обеспечить прохождение всего набора тестов. Задачи ограничены PR, созданными в предыдущем месяце.
Ключевые результаты
- Claude Opus 4.6 остаётся на первом месте с показателем решённых задач 65,3%, продолжая задавать темп с высоким pass@5 (~70%)
- Лидирующая группа чрезвычайно плотная: gpt-5.2-medium (64,4%), GLM-5 (62,8%) и gpt-5.4-medium (62,8%) находятся всего в нескольких пунктах от лидера
- Gemini 3.1 Pro Preview (62,3%) и DeepSeek-V3.2 (60,9%) завершают плотно сгруппированную шестёрку лидеров
- Открытые/гибридные модели продолжают улучшаться: Qwen3.5-397B (59,9%), Step-3.5-Flash (59,6%) и Qwen3-Coder-Next (54,4%) сокращают разрыв благодаря улучшенному использованию длинного контекста и масштабированию
- MiniMax M2.5 (54,6%) продолжает выделяться как экономически эффективный вариант с конкурентоспособной производительностью
В целом, февраль демонстрирует высококонкурентный фронт с несколькими моделями в пределах нескольких пунктов от лидера.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM
Результаты тестирования показывают производительность визуальной LLM Qwen3-VL в задачах классификации на Apple Silicon: модели M3 Max и M4 Studio демонстрируют практически идентичные результаты для 8B моделей, в то время как M5 Max работает на 75-83% быстрее. Пропускная способность памяти важнее для генерации токенов, чем для предварительного заполнения в визуальных задачах.

Обновление OpenClaw .23 вызывает проблемы с агентом и потерю данных
Обновление OpenClaw .23 приводит к тому, что агенты перестают отвечать, не выполняют задачи и теряют соединение с расширениями браузера. Запуск команды восстановления может полностью удалить JSON-конфигурации, требуя восстановления из резервных копий системы.

Anthropic платит SpaceX $15 млрд в год за вычислительные мощности до 2029 года
Документы SpaceX для IPO раскрывают, что Anthropic платит $1.25 млрд в месяц до мая 2029 года за вычислительные мощности. Сделка обеспечивает обучение ИИ на объектах Colossus 1 и 2.

ИИ делает меня тупее: признание разработчика в атрофии навыков
Джеймс Пейн признается, что после года-двух использования ИИ исключительно для программирования (без ручного написания кода) он в основном забыл, как программировать. Теперь он снова учится писать код вручную и предупреждает, что активное использование ИИ может ослабить навыки письма и программирования.