Анализ AI для кодирования: 3,177 API vs 4 инструмента

Недавний анализ, проведенный на четырех инструментах ИИ для кодирования — Claude Code Opus 4.6, Claude Code Sonnet 4.5, Codex GPT-5.3 и Gemini 2.5 Pro — подчеркивает значительные различия в управлении контекстными окнами API-запросов. Используя трассировщик Context Lens, исследование перехватило 3,177 API-запросов для оценки эффективности и стратегии инструментов в обработке контекстного окна при решении задач по исправлению ошибок в среде Express.js.

Каждый инструмент для кодирования решал конкретную задачу — неправильно упорядоченную проверку на null в res.send(). Opus, Sonnet, Codex и Gemini были задействованы в выявлении и исправлении ошибки, после чего они запускали тестовый пакет для проверки исправления. Все они справились с задачей, хотя и с разными подходами и ресурсами.

Claude Code Opus 4.6 постоянно использовал около 23K до 27K токенов, в основном состоящих из определений инструментов (69% контекста). Это указывает на зависимость от повторной отправки этих определений из-за архитектуры, что приводит к значительным накладным расходам на кэширование. Codex (GPT-5.3) продемонстрировал более широкий диапазон от 29.3K до 47.2K токенов, в основном состоящих из результатов инструментов (72%), обеспечивая большую изменчивость в зависимости от специфики тестовой команды. Sonnet, с аналогичной изменчивостью, более равномерно смешивал определения и результаты.

Gemini выделяется из-за своего непропорционального использования токенов, достигая пика в 350.5K, почти исключительно используя результаты инструментов (96%), благодаря своему большому контекстному окну в 1M. Несмотря на более низкие затраты на токен, непоследовательный и масштабный шаблон использования Gemini без сходимости по запускам указывает на уникальную, хотя и менее эффективную стратегию.

Эти находки иллюстрируют значительные различия в том, как инструменты ИИ для кодирования управляют контекстными окнами, что влияет как на производительность, так и на эффективность затрат. Разработчикам следует учитывать стратегии использования токенов при выборе подходящего инструмента для своих нужд, особенно для задач, связанных с итеративными изменениями или обширными историческими проектами.

📖 Читать весь источник: HN LLM Tools

Анализ инструментов AI для программирования: Разбор 3,177 API-вызовов

👀 Смотрите также

claude-real-video: Бесплатный инструмент, позволяющий Клоду смотреть видео с помощью слоя восприятия

Самодельный слой памяти для Claude бесплатно работает на Cloudflare

Навык "Текстовое приключение Клода" версии 1.1.0 добавляет сюжетные арки и улучшенных NPC.

Пользователь Reddit измеряет накладные расходы токенов MCP: 67 тысяч токенов потреблено ещё до постановки вопроса.