Анализ инструментов AI для программирования: Разбор 3,177 API-вызовов

Недавний анализ, проведенный на четырех инструментах ИИ для кодирования — Claude Code Opus 4.6, Claude Code Sonnet 4.5, Codex GPT-5.3 и Gemini 2.5 Pro — подчеркивает значительные различия в управлении контекстными окнами API-запросов. Используя трассировщик Context Lens, исследование перехватило 3,177 API-запросов для оценки эффективности и стратегии инструментов в обработке контекстного окна при решении задач по исправлению ошибок в среде Express.js.
Каждый инструмент для кодирования решал конкретную задачу — неправильно упорядоченную проверку на null в res.send(). Opus, Sonnet, Codex и Gemini были задействованы в выявлении и исправлении ошибки, после чего они запускали тестовый пакет для проверки исправления. Все они справились с задачей, хотя и с разными подходами и ресурсами.
Claude Code Opus 4.6 постоянно использовал около 23K до 27K токенов, в основном состоящих из определений инструментов (69% контекста). Это указывает на зависимость от повторной отправки этих определений из-за архитектуры, что приводит к значительным накладным расходам на кэширование. Codex (GPT-5.3) продемонстрировал более широкий диапазон от 29.3K до 47.2K токенов, в основном состоящих из результатов инструментов (72%), обеспечивая большую изменчивость в зависимости от специфики тестовой команды. Sonnet, с аналогичной изменчивостью, более равномерно смешивал определения и результаты.
Gemini выделяется из-за своего непропорционального использования токенов, достигая пика в 350.5K, почти исключительно используя результаты инструментов (96%), благодаря своему большому контекстному окну в 1M. Несмотря на более низкие затраты на токен, непоследовательный и масштабный шаблон использования Gemini без сходимости по запускам указывает на уникальную, хотя и менее эффективную стратегию.
Эти находки иллюстрируют значительные различия в том, как инструменты ИИ для кодирования управляют контекстными окнами, что влияет как на производительность, так и на эффективность затрат. Разработчикам следует учитывать стратегии использования токенов при выборе подходящего инструмента для своих нужд, особенно для задач, связанных с итеративными изменениями или обширными историческими проектами.
📖 Читать весь источник: HN LLM Tools
👀 Смотрите также

Плагин cc-soul добавляет постоянную память и адаптивные персонажи в OpenClaw.
Плагин cc-soul для OpenClaw обеспечивает постоянное хранение памяти между сессиями, 10 автоматически переключающихся персонажей и обучение на основе исправлений. Установка требует одной команды без необходимости конфигурации.

俄语翻译:在无人值守的隔夜会话中运行克劳德代码的模式
Трехкомпонентная структура — цепной исполнитель, супервизор и единый контракт передачи — решает проблему дрейфа обратной связи в многозадачных автономных сессиях Claude Code.

Архитектура промптов Claude Code, реконструированная для локальных моделей
Чистая реимплементация архитектуры из 26 промптов Claude Code теперь доступна на GitHub, предлагая системные промпты, промпты для инструментов, правила безопасности, сжатие памяти и шаблоны проверки для создания кодирующих агентов на локальных моделях, таких как Ollama, llama.cpp или vLLM.

Протокол Pilot: Открытая Сетевая Стек P2P для Роев ИИ-Агентов
Pilot Protocol — это открытый стек оверлейных сетей уровня 3 и уровня 4, специально разработанный для коммуникации ИИ-агентов, обеспечивающий прямые зашифрованные UDP-туннели между агентами с постоянными 48-битными виртуальными адресами.