Тестирование показывает, что контекстный движок снижает затраты на ИИ-агентов для написания кода в 3 раза на платформе SWE-bench.

Разработчик протестировал четыре ИИ-агента для программирования на SWE-bench Verified, используя одну и ту же модель Claude Opus 4.5, где управление контекстом было единственной переменной. Результаты показывают значительную разницу в стоимости при схожем уровне производительности.
Настройка тестирования
Тест использовал стратифицированную выборку из 100 задач SWE-bench Verified с пропорциональным представлением всех 12 репозиториев. Все агенты работали на Claude Opus 4.5 с одинаковым бюджетом $3 за задачу и лимитом в 250 шагов. Единственным отличием был контекстный слой перед моделью.
Результаты
- Контекстный движок + Claude Code: 73.0% Pass@1, $0.67/задача
- Live-SWE-Agent: 72.0% Pass@1, $0.86/задача
- OpenHands: 70.0% Pass@1, $1.77/задача
- Sonar Foundation: 70.0% Pass@1, $1.98/задача
Самая дорогая настройка стоит в 3 раза больше за задачу при более низком проценте решений. Восемь задач были решены только настройкой с контекстным слоем — это ошибки, которые модель не могла исправить без просмотра нужного кода.
Ограничения
На matplotlib (код с интенсивной отрисовкой и визуальным выводом) контекстный движок набрал 43%, в то время как Sonar Foundation достиг 86%. Контекст на основе графов менее эффективен, когда релевантный код не следует цепочкам зависимостей.
Как работает контекстный слой
Вместо того чтобы позволять Claude читать целые файлы, он предварительно индексирует кодовую базу в граф зависимостей с использованием tree-sitter + SQLite (поддерживается 30 языков) и возвращает ранжированную контекстную капсулу: полный исходный код для важных функций, скелетные сигнатуры для всего, что связано с ними. Агент начинает каждую задачу, уже зная, что является релевантным.
Он включает сессионную память, которая сохраняется между сессиями через MCP. Когда код изменяется, предыдущие наблюдения автоматически помечаются как устаревшие, поэтому агент не исследует одни и те же вещи повторно.
Система на 100% локальная, без облака, без учётных записей и без передачи кода с вашего компьютера. Она работает с Claude Code и 11 другими агентами через MCP.
Доступность в открытом исходном коде
Инфраструктура для тестирования, все журналы оценок, результаты по каждому экземпляру и скрипты сравнения доступны на GitHub по адресу github.com/Vexp-ai/vexp-swe-bench. Сам инструмент доступен на vexp.dev с бесплатным тарифом, расширением для VS Code или CLI. Полные результаты тестирования с графиками находятся на vexp.dev/benchmark.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2
Исследователи достигли улучшения в 2,8 раза на бенчмарке ARC-AGI-2, используя эволюцию кода с открытыми весами моделей, достигнув точности 34% при стоимости $2,67 за задачу. Тот же метод позволил повысить точность Gemini 3.1 Pro до 95% при стоимости $8,71 за задачу.

Навык Claude Code с открытым исходным кодом /unzuck организует ленты социальных сетей в единую панель управления.
Бесплатный, открытый навык Claude Code под названием /unzuck параллельно сканирует ленты Hacker News, Reddit, LinkedIn, YouTube, Twitter/X, Instagram и Facebook с помощью автоматизации браузера, оценивает элементы по профилям интересов пользователей и генерирует интерактивные HTML-дашборды.

Zoku: Инструмент для автоматического обнаружения повторяющихся рабочих процессов в коде Claude
Zoku — это локальный инструмент, который подключается к системе событий Claude Code для записи действий инструментов между сессиями, выявляет повторяющиеся паттерны рабочих процессов, а затем информирует Claude об этих паттернах, чтобы он мог предлагать или выполнять их проактивно. Он не требует настройки, не имеет зависимостей и хранит всё локально в ~/.zoku/.

Пользовательская строка состояния для Claude Code отображает использование контекста, стоимость и ветку Git
Пользователь Reddit создал bash-скрипт, который использует настройку statusLine в Claude Code для отображения информации в реальном времени, включая использование контекстного окна, стоимость сессии, активную модель и текущую ветку git. Для работы скрипта требуется jq, и он доступен на GitHub.