GPT-5.5 Codex против Claude Opus 4.7: Бенчмарки агентов реального кодирования

Пользователь Reddit протестировал GPT-5.5 Codex (через Cursor) против Claude Opus 4.7 (Claude Code) на двух задачах производственного уровня. Оба использовали одинаковые промпты, MCP (GitHub + Slack) и машину. Результаты показывают компромиссы по стоимости, архитектуре и надежности.
Тест 1: Бот для триажа PR
- GitHub MCP, формула оценки, уведомления в Slack, повторные попытки, строгий TypeScript (без
any). - Claude Code: Проверил доступность MCP перед написанием кода. Создал 36 файлов за 12 минут. Написал собственный WebSocket-тест (широковещательная рассылка за 3мс). Ноль ошибок при первом запуске. Общая стоимость: ~$2.50.
- Codex: Не справился — GitHub MCP недоступен из-за проблемы с окружением Cursor (не ошибка модели). Не смог выполнить задачу.
Тест 2: Интерфейс ревью кода в реальном времени
- React, WebSockets, оптимистичный откат, виртуализированный diff, переподключение WS.
- Claude Code: Такая же чистая поставка, 36 файлов, без ошибок.
- Codex: Сдал в 28 файлах (более компактная архитектура). Потребовал одно ручное исправление для бесконечного цикла React. Общая стоимость: ~$2.04 (на 18% дешевле Claude).
Выводы: Для сложной, архитектурно-насыщенной работы Opus 4.7 по-прежнему лидирует — лучшее обращение с инструментами, вывод без переписывания и тщательная проверка MCP. Codex компактнее и дешевле, подходит для ограниченных, самодостаточных задач, где важна быстрая сдача и можно смириться с небольшими исправлениями. Пользователь пока не переключается, но следит за разницей в ценах.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Сяочжэнь: Навык Claude Code, который копает на три уровня вглубь для выявления корневых причин
Сяочжэнь (小真) — это навык Claude Code, который использует три механизма — Дар, Три уровня глубины и Прогноз — чтобы помочь пользователям выяснить, что на самом деле их беспокоит, вместо того чтобы давать прямые советы. Он устанавливается одной командой curl и активируется вводом /小真 в Claude Code.

Навык GAN для Claude Code: Инструмент на основе состязательного ИИ для совершенствования идей
Навык Claude Code под названием /gan использует состязательные роли ИИ для критики и улучшения идей посредством чередующихся фаз Дискриминатора и Генератора, с такими функциями, как режимы интенсивности, вывод на нескольких языках и принудительный выбор роли, разработанными через самоитерацию.

ApexClaw: Открытый ИИ-агент для Telegram с более чем 85 инструментами для веб-автоматизации, работы с голосом и электронной почтой
ApexClaw — это открытый AI-агент для Telegram, написанный на Go, который предоставляет более 85 встроенных инструментов, включая веб-сёрфинг с использованием headless Chrome, обработку голосовых сообщений, интеграцию с Gmail и выполнение shell-скриптов. Он предназначен для самостоятельного развёртывания и использует движок z.ai для принятия решений.

克劳德设计与华数设计:HTML布局与速率限制的对决
Claude Design быстро создает HTML-прототипы, но быстро упирается в лимиты. Huashu-Design, открытый навык Claude Code, работает по обычной подписке без отдельного лимита, но занимает 20 минут вместо 5.