Тестирование конвейера RAG показывает, что стоимость за токен — не лучший критерий для выбора модели.

✍️ OpenClawRadar📅 Опубликовано: 2 марта 2026 г.🔗 Source

Разработчик провёл сравнение трёх ИИ-моделей в условиях, приближённых к продакшену, используя идентичные RAG-пайплайны для ответа на сложный запрос клиента о соответствии SOC 2. В тесте использовались Claude Haiku 4.5, Amazon Nova Pro и Amazon Nova Lite с одинаковой настройкой: два векторных хранилища (документация по продукту и маркетинговая/конкурентная документация), 13 Architecture Decision Records в качестве контекстной основы, примерно 49K входных токенов извлечённого контекста на запрос, идентичные системные промпты и одинаковая структура вызова Bedrock API с изменением только идентификатора модели.

Настройка теста и результаты

Запрос был: «Клиент спросил о соответствии SOC 2 — как мне ответить?» Все модели получили одинаковый RAG-контекст, содержащий полный плейбук с готовыми для копирования письмами, обработкой возражений, конкурентным позиционированием, ответами по соответствию конкретным фреймворкам и ограничениями на то, чего говорить не следует.

Результаты:

Nova Lite: 49 067 входных токенов, 244 выходных токена, время ответа 5.5с, стоимость ~$0.003
Nova Pro: 49 067 входных токенов, 368 выходных токенов, время ответа 13.5с, стоимость ~$0.040
Haiku 4.5: 53 674 входных токена, 1 534 выходных токена, время ответа 15.6с, стоимость $0.049

Сравнение качества вывода

Несмотря на идентичный контекст, модели выдали кардинально разные ответы:

Nova Lite: Сгенерировала общее письмо из четырёх абзацев, которое верно передало основной факт (развёртывание в вашем аккаунте, отсутствие отдельного отчёта SOC 2), но не включило обработку возражений, конкурентное позиционирование или нюансы из контекста. Завершилось мета-комментарием о следовании ADR.
Nova Pro: Выдала семь пронумерованных пунктов, охватывающих технические аспекты, такие как резидентность данных, аутентификация, контроль доступа, мониторинг, обновления, управление секретами и область соответствия. Технически точно, но читалось как вставленная документация AWS с аналогичным мета-комментарием.
Haiku 4.5: Предоставила полный плейбук с объяснением на простом английском, готовое для копирования письмо, обработчик возражений с аналогией на Terraform, ответы по конкретным фреймворкам (HIPAA, PCI-DSS, SOX, FINRA), ограничения «чего НЕ говорить», готовые тезисы для CRM и конкурентное позиционирование против других инструментов.

Ключевой вывод

Разрыв заключался не в доступной информации — все модели имели одинаковые ~49K входных токенов, содержащих полный плейбук. Разница была в том, что каждая модель могла извлечь и синтезировать. Nova Lite извлекла один факт, Nova Pro организовала факты в список, а Haiku синтезировала контекст в готовый к действию инструментарий с предвосхищением последующих вопросов.

Разница в стоимости между Nova Pro и Haiku составила $0.009 на запрос (меньше цента), но разрыв в качестве вывода был существенным. Самая дешёвая модель на токен выдавала ответы, для соответствия которым однопроходному выводу Haiku потребовалось бы 2-3 дополнительных запроса, что в итоге обходилось дороже из-за повторного использования RAG-пайплайна.

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Кейсы

Пользователи сообщают об использовании Claude Cowork для подготовки налоговых деклараций со сложными формами для самозанятых.

Пользователь Reddit с опытом самозанятости использовал Claude Cowork для обработки форм 1099 и отчетов о прибылях и убытках, заполнив налоговые декларации за несколько минут. Он отключил обмен данными и не указывал номера социального страхования для сохранения конфиденциальности.

16 апр. 2026 г., 07:45 UTC

OpenClawRadar

Кейсы

Посмертный анализ: Система управления для проектов по разработке ИИ с использованием Claude

Разработчик поделился постмортемом двухнедельного проекта Claude Code, в результате которого было создано 23 тысячи строк кода и 2629 тестов примерно за 100 долларов, подчеркнув, что система управления была важнее, чем промпты. Фреймворк является открытым исходным кодом.

25 мар. 2026 г., 03:45 UTC

OpenClawRadar

Кейсы

Создание агента для Slay the Spire 2 с использованием локальных LLM: уроки и нерешённые задачи

Разработчик создал агента, который играет в Slay the Spire 2, используя Qwen3.5-27B через KoboldCPP/Ollama, достигая ~10 секунд на действие и ~88% успешности действий с такими техниками, как маршрутизация инструментов на основе состояния и режим одного инструмента, одновременно выявляя открытые проблемы, такие как согласованность промптов и надежность вызова инструментов.

26 мар. 2026 г., 01:45 UTC

OpenClawRadar

Кейсы

Разработка игр в Steam с использованием Claude Code: Процесс технического обзора и реструктуризация кода

Разработчик использовал Claude Code для создания и публикации игры в Steam, подробно описав, как он справился с интеграцией Steamworks SDK, настройкой депозита и локализацией на 7 языков, но столкнулся с трудностями с требованиями к изображениям и жёстко заданными структурами данных.

13 апр. 2026 г., 12:45 UTC

OpenClawRadar