Бенчмарк проверки кода ИИ: сравнение Claude, Gemini, Codex, Qwen и MiniMax

✍️ OpenClawRadar📅 Опубликовано: 27 февраля 2026 г.🔗 Source

Сравнение производительности ИИ при ревью кода

Недавний эксперимент провёл сравнительный анализ пяти флагманских моделей ИИ для ревью кода, используя 15 пулл-реквестов из Milvus — открытой векторной базы данных. Каждый PR содержал известные баги, которые проявились в продакшене после слияния, что обеспечило реалистичный набор для тестирования.

Модели и настройка

Протестированные модели:

Claude Opus 4.6
Gemini 3 Pro
GPT-5.2-Codex
Qwen-3.5-Plus
MiniMax-M2.5

Тестирование использовало Magpie — инструмент с открытым исходным кодом, который подготавливает контекст, подтягивая окружающий код, цепочки вызовов и связанные модули, прежде чем передать его модели.

Уровни сложности багов

Багы были классифицированы по сложности:

L1: Видны только из diff (все модели их обнаружили, поэтому исключены из подсчёта очков)
L2 (10 случаев): Требуют понимания окружающего кода (изменения интерфейсов, гонки состояний)
L3 (5 случаев): Требуют понимания на уровне системы (несоответствия между модулями, совместимость при обновлении)

Результаты по моделям

Использовались два режима оценки:

Raw: Модель видит только diff и содержимое PR
R1: Magpie предоставляет окружающий контекст

Общие показатели обнаружения (только L2 + L3):

Claude: 53% raw, 47% с контекстом
Gemini: 13% raw, 33% с контекстом
Codex: 33% raw, 27% с контекстом
MiniMax: 27% raw, 33% с контекстом
Qwen: 33% raw, 40% с контекстом

Ключевые выводы

Claude доминировал в raw-ревью с обнаружением 53% и идеальным результатом 5/5 по багам L3. Он отлично организует собственный контекст, поэтому дополнительный контекст фактически снизил его производительность.

Gemini показал слабые результаты в режиме raw (13%), но значительно улучшился с контекстом (33%), что говорит о необходимости предоставления контекста заранее.

Qwen оказался самым сильным исполнителем с контекстной помощью — 40%, с наивысшим обнаружением багов L2 (5/10).

Результаты состязательных дебатов

Когда модели дискутировали друг с другом в течение пяти раундов, обнаружение багов выросло с 53% (лучшая одиночная модель) до 80%. Самые сложные баги L3 достигли 100% обнаружения в режиме дебатов.

Эксперимент показывает, что разные модели обладают взаимодополняющими сильными сторонами: тщательность Claude, дизайн-ориентированный анализ Gemini при наличии контекста, конкретная и практическая обратная связь Codex, а также сильная производительность Qwen с контекстной помощью.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Инструменты

OmniCoder-9B: Агент для программирования с 9 миллиардами параметров, дообученный на 425 тысячах агентных траекторий.

Компания Tesslate выпустила OmniCoder-9B — агентную модель для программирования с 9 миллиардами параметров, дообученную на гибридной архитектуре Qwen3.5-9B. Она обучалась на более чем 425 000 отобранных траекторий агентного кодирования от Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex и Gemini 3.1 Pro.

13 мар. 2026 г., 03:45 UTC

OpenClawRadar

Инструменты

Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.

Академическая исследовательская команда выпустила приложение QCAI для iOS и Android, созданное с помощью ИИ-разработки, предлагающее мониторинг через панель управления, чат шлюза и безопасный VPN-доступ к инструментам OpenClaw.

15 апр. 2026 г., 04:45 UTC

OpenClawRadar

Инструменты

Самостоятельно размещенный контекстный бандит на Rust: Syntra и Lycan для адаптивных систем принятия решений

Два проекта с открытым исходным кодом: Lycan (язык выполнения графов с узлами стратегий и обученными весами) и Syntra (приложение Docker/API, обслуживающее скомпилированные капсулы Lycan). При использовании на собственном продукте для дебатов по AI-акциям обнаружили ошибки в конвейере данных до ошибок времени выполнения.

15 мая 2026 г., 16:16 UTC

OpenClawRadar

Инструменты

Создание CLI для AI-агентов: принципы дизайна на примере Google's gws CLI

Интерфейс командной строки gws от Google демонстрирует, как проектировать интерфейсы командной строки специально для ИИ-агентов, отдавая приоритет необработанным JSON-полезным нагрузкам вместо удобных для человека флагов и внедряя защитные механизмы против галлюцинаций.

7 мар. 2026 г., 18:45 UTC

OpenClawRadar