SWE-CI: Новые эталонные тесты оценивают ИИ-агентов в долгосрочном сопровождении кода через CI

Что на самом деле делает SWE-CI
SWE-CI — это первый бенчмарк на уровне репозитория, построенный на цикле непрерывной интеграции. Он призван сместить парадигму оценки генерации кода со статической, краткосрочной функциональной корректности в сторону динамической, долгосрочной поддерживаемости.
Ключевые детали из статьи
Бенчмарк включает 100 задач, каждая из которых в среднем соответствует:
- Истории эволюции протяжённостью 233 дня
- 71 последовательному коммиту в реальном репозитории кода
SWE-CI требует от агентов систематического решения этих задач через десятки раундов анализа и итераций кодирования. Это устраняет пробел в текущих методах оценки: хотя агенты на основе LLM продемонстрировали сильные возможности в автоматизации задач разработки ПО, таких как статическое исправление ошибок (как показали бенчмарки вроде SWE-bench), реальная разработка включает сложные изменения требований и долгосрочные итерации функций, которые статические, одношаговые парадигмы исправления не охватывают.
В статье отдельно отмечается, что SWE-CI даёт ценные инсайты о том, насколько хорошо агенты могут поддерживать качество кода на протяжении долгосрочной эволюции. Это выходит за рамки простого исправления ошибок, чтобы оценить, как агенты справляются с итеративной природой реальной разработки ПО.
Технический контекст
Такой тип бенчмарка важен, потому что большинство текущих оценок ИИ-агентов для кодинга сосредоточены на одношаговых исправлениях или изолированных проблемах кодирования. Подход SWE-CI на основе CI лучше отражает то, как разработка фактически происходит в зрелых проектах ПО, где изменения накапливаются со временем и должны сохранять совместимость с существующими системами.
Для разработчиков, использующих ИИ-агентов для кодинга, этот бенчмарк может помочь определить, какие агенты лучше подходят для долгосрочного сопровождения проектов, а какие — для быстрых исправлений. Многораундовая, итеративная природа задач проверяет настойчивость и последовательность — качества, которые важны при интеграции ИИ-помощников в текущие рабочие процессы разработки.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Аурелий: Фреймворк React, созданный с помощью 48 кодовых агентов Claude и конвейера Figma-to-React
Aurelius — это фреймворк с открытым исходным кодом для React, который использует 48 иерархически организованных агентов Claude Code для автономной сборки React-приложений из дизайнов Figma. Фреймворк применяет TDD, визуальный контроль качества с пиксельным сравнением и проверки качества перед развёртыванием.

Фуллерены: уровень постоянной памяти с открытым исходным кодом для агентов кодирования сокращает количество токенов на 64% в SWE-bench
Fullerenes использует локальную базу знаний SQLite, построенную с помощью Tree-sitter, чтобы предоставить агентам кодирования вроде Claude Code постоянную память, сокращая использование токенов на 64% на SWE-bench и до 96.6% на внутренних тестах.

WebClaw: Открытый MCP-сервер для извлечения веб-данных с Claude
WebClaw — это сервер MCP с открытым исходным кодом, созданный с помощью Claude Code, который предоставляет инструменты для извлечения веб-данных для Claude Desktop и Claude Code, решая ограничения встроенной функции web_fetch в Claude с помощью TLS-фингерпринтинга и оптимизации контента.

Навык OpenClaw atoship превращает AI-ассистента в менеджера по доставке.
Навык atoship для OpenClaw позволяет пользователям описывать потребности в доставке простым английским языком, а затем система сама выбирает перевозчика, сравнивает тарифы, покупает этикетки и отслеживает отправления. Пример команд: 'отправь эту коробку весом 1 фунт в Нью-Йорк, самый дешёвый вариант'.