SWE-CI: Новые эталонные тесты оценивают ИИ-агентов в долгосрочном сопровождении кода через CI

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source
SWE-CI: Новые эталонные тесты оценивают ИИ-агентов в долгосрочном сопровождении кода через CI
Ad

Что на самом деле делает SWE-CI

SWE-CI — это первый бенчмарк на уровне репозитория, построенный на цикле непрерывной интеграции. Он призван сместить парадигму оценки генерации кода со статической, краткосрочной функциональной корректности в сторону динамической, долгосрочной поддерживаемости.

Ключевые детали из статьи

Бенчмарк включает 100 задач, каждая из которых в среднем соответствует:

  • Истории эволюции протяжённостью 233 дня
  • 71 последовательному коммиту в реальном репозитории кода

SWE-CI требует от агентов систематического решения этих задач через десятки раундов анализа и итераций кодирования. Это устраняет пробел в текущих методах оценки: хотя агенты на основе LLM продемонстрировали сильные возможности в автоматизации задач разработки ПО, таких как статическое исправление ошибок (как показали бенчмарки вроде SWE-bench), реальная разработка включает сложные изменения требований и долгосрочные итерации функций, которые статические, одношаговые парадигмы исправления не охватывают.

В статье отдельно отмечается, что SWE-CI даёт ценные инсайты о том, насколько хорошо агенты могут поддерживать качество кода на протяжении долгосрочной эволюции. Это выходит за рамки простого исправления ошибок, чтобы оценить, как агенты справляются с итеративной природой реальной разработки ПО.

Ad

Технический контекст

Такой тип бенчмарка важен, потому что большинство текущих оценок ИИ-агентов для кодинга сосредоточены на одношаговых исправлениях или изолированных проблемах кодирования. Подход SWE-CI на основе CI лучше отражает то, как разработка фактически происходит в зрелых проектах ПО, где изменения накапливаются со временем и должны сохранять совместимость с существующими системами.

Для разработчиков, использующих ИИ-агентов для кодинга, этот бенчмарк может помочь определить, какие агенты лучше подходят для долгосрочного сопровождения проектов, а какие — для быстрых исправлений. Многораундовая, итеративная природа задач проверяет настойчивость и последовательность — качества, которые важны при интеграции ИИ-помощников в текущие рабочие процессы разработки.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Аурелий: Фреймворк React, созданный с помощью 48 кодовых агентов Claude и конвейера Figma-to-React
Инструменты

Аурелий: Фреймворк React, созданный с помощью 48 кодовых агентов Claude и конвейера Figma-to-React

Aurelius — это фреймворк с открытым исходным кодом для React, который использует 48 иерархически организованных агентов Claude Code для автономной сборки React-приложений из дизайнов Figma. Фреймворк применяет TDD, визуальный контроль качества с пиксельным сравнением и проверки качества перед развёртыванием.

OpenClawRadar
Фуллерены: уровень постоянной памяти с открытым исходным кодом для агентов кодирования сокращает количество токенов на 64% в SWE-bench
Инструменты

Фуллерены: уровень постоянной памяти с открытым исходным кодом для агентов кодирования сокращает количество токенов на 64% в SWE-bench

Fullerenes использует локальную базу знаний SQLite, построенную с помощью Tree-sitter, чтобы предоставить агентам кодирования вроде Claude Code постоянную память, сокращая использование токенов на 64% на SWE-bench и до 96.6% на внутренних тестах.

OpenClawRadar
WebClaw: Открытый MCP-сервер для извлечения веб-данных с Claude
Инструменты

WebClaw: Открытый MCP-сервер для извлечения веб-данных с Claude

WebClaw — это сервер MCP с открытым исходным кодом, созданный с помощью Claude Code, который предоставляет инструменты для извлечения веб-данных для Claude Desktop и Claude Code, решая ограничения встроенной функции web_fetch в Claude с помощью TLS-фингерпринтинга и оптимизации контента.

OpenClawRadar
Навык OpenClaw atoship превращает AI-ассистента в менеджера по доставке.
Инструменты

Навык OpenClaw atoship превращает AI-ассистента в менеджера по доставке.

Навык atoship для OpenClaw позволяет пользователям описывать потребности в доставке простым английским языком, а затем система сама выбирает перевозчика, сравнивает тарифы, покупает этикетки и отслеживает отправления. Пример команд: 'отправь эту коробку весом 1 фунт в Нью-Йорк, самый дешёвый вариант'.

OpenClawRadar