Бенчмарк проверки кода ИИ: сравнение Claude, Gemini, Codex, Qwen и MiniMax

Сравнение производительности ИИ при ревью кода
Недавний эксперимент провёл сравнительный анализ пяти флагманских моделей ИИ для ревью кода, используя 15 пулл-реквестов из Milvus — открытой векторной базы данных. Каждый PR содержал известные баги, которые проявились в продакшене после слияния, что обеспечило реалистичный набор для тестирования.
Модели и настройка
Протестированные модели:
- Claude Opus 4.6
- Gemini 3 Pro
- GPT-5.2-Codex
- Qwen-3.5-Plus
- MiniMax-M2.5
Тестирование использовало Magpie — инструмент с открытым исходным кодом, который подготавливает контекст, подтягивая окружающий код, цепочки вызовов и связанные модули, прежде чем передать его модели.
Уровни сложности багов
Багы были классифицированы по сложности:
- L1: Видны только из diff (все модели их обнаружили, поэтому исключены из подсчёта очков)
- L2 (10 случаев): Требуют понимания окружающего кода (изменения интерфейсов, гонки состояний)
- L3 (5 случаев): Требуют понимания на уровне системы (несоответствия между модулями, совместимость при обновлении)
Результаты по моделям
Использовались два режима оценки:
- Raw: Модель видит только diff и содержимое PR
- R1: Magpie предоставляет окружающий контекст
Общие показатели обнаружения (только L2 + L3):
- Claude: 53% raw, 47% с контекстом
- Gemini: 13% raw, 33% с контекстом
- Codex: 33% raw, 27% с контекстом
- MiniMax: 27% raw, 33% с контекстом
- Qwen: 33% raw, 40% с контекстом
Ключевые выводы
Claude доминировал в raw-ревью с обнаружением 53% и идеальным результатом 5/5 по багам L3. Он отлично организует собственный контекст, поэтому дополнительный контекст фактически снизил его производительность.
Gemini показал слабые результаты в режиме raw (13%), но значительно улучшился с контекстом (33%), что говорит о необходимости предоставления контекста заранее.
Qwen оказался самым сильным исполнителем с контекстной помощью — 40%, с наивысшим обнаружением багов L2 (5/10).
Результаты состязательных дебатов
Когда модели дискутировали друг с другом в течение пяти раундов, обнаружение багов выросло с 53% (лучшая одиночная модель) до 80%. Самые сложные баги L3 достигли 100% обнаружения в режиме дебатов.
Эксперимент показывает, что разные модели обладают взаимодополняющими сильными сторонами: тщательность Claude, дизайн-ориентированный анализ Gemini при наличии контекста, конкретная и практическая обратная связь Codex, а также сильная производительность Qwen с контекстной помощью.
📖 Read the full source: HN AI Agents
👀 Смотрите также

ИИ-агент Автономно Создает Видео с Использованием Remotion Без Предопределенных Инструментов
Разработчик протестировал ИИ-агента, который автономно создал короткий видеоролик, установив Remotion, написав код композиции, исправив ошибки и предоставив готовый файл без вмешательства человека.

Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.
Идеанатор — это CLI инструмент, разработанный самоучкой 19-летним разработчиком с использованием локальных LLM, таких как Ollama/MLX. Он преобразует неопределенные идеи в четко определенные концепции, полностью офлайн.

Холисто Сид: Локальная структура LLM с постоянной идентичностью и консенсусной консолидацией памяти
Holisto Seed — это фреймворк реляционной индивидуации, который предоставляет LLM-агентам постоянную идентичность, биографическую память и коэволюционные отношения с пользователями. Он работает полностью локально с системой версионирования на основе Git и включает согласованный цикл сна для консолидации памяти.

yburn: Инструмент для аудита и замены ненужных cron-задач AI-агентов
yburn — это инструмент на Python, который проверяет cron-задачи AI-агентов и заменяет те, что не требуют LLM, на автономные Python-скрипты. Создатель обнаружил, что 58% из 98 cron-задач были чисто механическими задачами, такими как проверка состояния системы и резервное копирование git.