Тестирование конвейера RAG показывает, что стоимость за токен — не лучший критерий для выбора модели.

✍️ OpenClawRadar📅 Опубликовано: 2 марта 2026 г.🔗 Source
Тестирование конвейера RAG показывает, что стоимость за токен — не лучший критерий для выбора модели.
Ad

Разработчик провёл сравнение трёх ИИ-моделей в условиях, приближённых к продакшену, используя идентичные RAG-пайплайны для ответа на сложный запрос клиента о соответствии SOC 2. В тесте использовались Claude Haiku 4.5, Amazon Nova Pro и Amazon Nova Lite с одинаковой настройкой: два векторных хранилища (документация по продукту и маркетинговая/конкурентная документация), 13 Architecture Decision Records в качестве контекстной основы, примерно 49K входных токенов извлечённого контекста на запрос, идентичные системные промпты и одинаковая структура вызова Bedrock API с изменением только идентификатора модели.

Настройка теста и результаты

Запрос был: «Клиент спросил о соответствии SOC 2 — как мне ответить?» Все модели получили одинаковый RAG-контекст, содержащий полный плейбук с готовыми для копирования письмами, обработкой возражений, конкурентным позиционированием, ответами по соответствию конкретным фреймворкам и ограничениями на то, чего говорить не следует.

Результаты:

  • Nova Lite: 49 067 входных токенов, 244 выходных токена, время ответа 5.5с, стоимость ~$0.003
  • Nova Pro: 49 067 входных токенов, 368 выходных токенов, время ответа 13.5с, стоимость ~$0.040
  • Haiku 4.5: 53 674 входных токена, 1 534 выходных токена, время ответа 15.6с, стоимость $0.049
Ad

Сравнение качества вывода

Несмотря на идентичный контекст, модели выдали кардинально разные ответы:

  • Nova Lite: Сгенерировала общее письмо из четырёх абзацев, которое верно передало основной факт (развёртывание в вашем аккаунте, отсутствие отдельного отчёта SOC 2), но не включило обработку возражений, конкурентное позиционирование или нюансы из контекста. Завершилось мета-комментарием о следовании ADR.
  • Nova Pro: Выдала семь пронумерованных пунктов, охватывающих технические аспекты, такие как резидентность данных, аутентификация, контроль доступа, мониторинг, обновления, управление секретами и область соответствия. Технически точно, но читалось как вставленная документация AWS с аналогичным мета-комментарием.
  • Haiku 4.5: Предоставила полный плейбук с объяснением на простом английском, готовое для копирования письмо, обработчик возражений с аналогией на Terraform, ответы по конкретным фреймворкам (HIPAA, PCI-DSS, SOX, FINRA), ограничения «чего НЕ говорить», готовые тезисы для CRM и конкурентное позиционирование против других инструментов.

Ключевой вывод

Разрыв заключался не в доступной информации — все модели имели одинаковые ~49K входных токенов, содержащих полный плейбук. Разница была в том, что каждая модель могла извлечь и синтезировать. Nova Lite извлекла один факт, Nova Pro организовала факты в список, а Haiku синтезировала контекст в готовый к действию инструментарий с предвосхищением последующих вопросов.

Разница в стоимости между Nova Pro и Haiku составила $0.009 на запрос (меньше цента), но разрыв в качестве вывода был существенным. Самая дешёвая модель на токен выдавала ответы, для соответствия которым однопроходному выводу Haiku потребовалось бы 2-3 дополнительных запроса, что в итоге обходилось дороже из-за повторного использования RAG-пайплайна.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Создание ИИ-кортекса с Claude Code: Архитектура и идеи библиотеки контекста
Кейсы

Создание ИИ-кортекса с Claude Code: Архитектура и идеи библиотеки контекста

Разработчик создал платформу, где Claude пишет, проверяет и автоматически сливает код, причём ключевым моментом стала структурированная библиотека контекста, которая со временем накапливается. Через шесть недель, по сообщениям, ИИ знает компанию лучше, чем новый сотрудник после года работы.

OpenClawRadar
Клод Опус 4.6 анализирует письма Баффетта, чтобы вслепую выбирать акции.
Кейсы

Клод Опус 4.6 анализирует письма Баффетта, чтобы вслепую выбирать акции.

Разработчик использовал Claude Code с сабагентами для извлечения инвестиционных принципов Уоррена Баффетта из 48 лет писем акционерам (561 849 слов), затем применил их для оценки 50 анонимизированных акций. Opus 4.6 правильно определил 60% реальных холдингов Berkshire в своих топ-10 выборах, одновременно отвергнув анти-баффеттовские контрольные акции.

OpenClawRadar
Знакомьтесь, Клод: Визуальный роман, полностью созданный искусственным интеллектом
Кейсы

Знакомьтесь, Клод: Визуальный роман, полностью созданный искусственным интеллектом

Разработчик создал сатирическую визуальную новеллу под названием Meet Claude, используя Claude AI для написания, программирования, создания графики, музыки и развертывания. Игра исследует зависимость от ИИ-ассистентов и доступна бесплатно в Steam с несколькими концовками.

OpenClawRadar
Использование Claude Code для устранения проблем с конфигурацией OpenClaw
Кейсы

Использование Claude Code для устранения проблем с конфигурацией OpenClaw

Разработчик использовал Claude Code для исправления настроек OpenClaw, конфигурации heartbeat, памяти, cron-задач и других проблем с настройкой после неудачных попыток ручной настройки и переключения версий.

OpenClawRadar