Codeset улучшает работу кодирующих агентов, предоставляя контекст из истории git, специфичный для репозитория.

Что делает Codeset
Codeset запускает конвейер обработки вашей истории git и генерирует файлы, которые размещаются непосредственно в вашем репозитории. Эти файлы включают: прошлые ошибки для каждого файла с корневыми причинами, известные подводные камни, взаимосвязи совместных изменений и контрольные списки тестов. Кодирующий агент читает эти файлы как часть своего обычного контекстного окна. Никакого RAG, никакой векторной базы данных во время запроса, никакой инфраструктуры времени выполнения не требуется — только статические файлы, которые ваш агент подхватывает, как и любые другие файлы в репозитории.
Результаты тестирования
Команда протестировала Codeset с двумя бенчмарками:
- codeset-gym-python (150 задач, тот же поднабор, что и в оценке Claude): 60,7% → 66% (+5,3 процентных пункта)
- SWE-Bench Pro (400 случайно выбранных задач): 56,5% → 58,5% (+2 процентных пункта)
Это показывает стабильное улучшение по обоим бенчмаркам, с меньшим приростом на SWE-Bench Pro по сравнению с codeset-gym. Бенчмарк codeset-gym является публичным, с полным списком задач и доступными верификаторами для проверки методологии.
Цены и доступность
Codeset стоит $5 за репозиторий, единовременный платеж. Используйте код CODESETLAUNCH для бесплатного пробного периода. Полные артефакты оценки доступны по адресу https://github.com/codeset-ai/codeset-release-evals.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

NLA преобразует внутренние активации Gemma 3 в читаемый текст для любого токена
Anthropic выпустила Natural Language Autoencoders (NLA), которые декодируют внутреннее состояние модели в текст. В паре с Gemma 3 Auto Verbalizer объясняет, о чем модель «думала» при генерации каждого токена. Веса на Hugging Face; демо на Neuronpedia.

Автоматизация сортировки оповещений Datadog с помощью Claude Code и MCP
Разработчик создал систему, используя навыки Claude Code и MCP-сервер Datadog, для автоматической проверки мониторинговых алертов, классификации проблем и открытия PR с исправлениями через cron-задачу. Настройка занимает около 30 минут и запускает параллельные AI-агенты в изолированных рабочих деревьях.

Нюкс: Автономный тестовый комплекс для ИИ-агентов
Nyx — это система чёрного ящика для тестирования, которая исследует ИИ-агентов на предмет режимов отказа, таких как логические ошибки, сбои в рассуждениях и уязвимости безопасности, посредством многоходовых адаптивных диалогов. Она выявляет за менее чем 10 минут то, на что ручные проверки тратят часы.

Обзор AutoClaw Local Runner: Простая настройка, стоимость кредитов и проблемы с удалением
Пользователь протестировал AutoClaw, локальный раннер для OpenClaw/AutoGLM от Zai_org, обнаружив, что установка прошла гладко, но столкнулся с высоким потреблением кредитов, сбоями задач и тревожной устойчивостью после удаления, включая записи в реестре и открытые текстовые учетные данные.