Оценка RAG-чатбота: как прогон модели + исправление ретривера сократили затраты на 79% и повысили качество на 19%

✍️ OpenClawRadar📅 Опубликовано: 15 мая 2026 г.🔗 Source

Пользователь Reddit провел полную оценку RAG-чатбота для поддержки клиентов, который работал на ChromaDB с порогом схожести по умолчанию 0,7 (косинусное расстояние) и использовал Gemini 3.1 Flash Lite Preview для генерации. Он обнаружил, что самая дорогая модель показала наихудшие результаты, а несколько неочевидных изменений действительно повлияли на эффективность.

Проблемы поиска, маскирующиеся под проблемы LLM

Бот отвечал «У меня нет доступа к конкретной информации об услугах нашей компании», когда пользователи задавали неформальные вводные вопросы вроде «эй, чем вы занимаетесь?». Инстинктивно хотелось изменить промпты или заменить модель, но корень проблемы был в поиске: порог схожести в ChromaDB был установлен на 0,7 (косинусное расстояние, где меньшее значение означает большую схожесть, так что порог на самом деле строгий). Неформальные вводные не давали эмбеддингов, достаточно близких к какому-либо чанку, поэтому не было получено ни одного документа. Урок: логируйте, какой контекст на самом деле получает LLM, прежде чем обвинять генерацию. Если поиск ничего не возвращает, никакое инженерное улучшение промптов это не исправит.

Эвристические оценщики хуже, чем их отсутствие

Сопоставление ключевых слов и подсчет ссылок на источники давали числа, не коррелирующие с удовлетворенностью пользователей. Автор перешел на LLM-судью (Claude Haiku 4.5 через OpenRouter), который оценивал релевантность, точность, полезность и общую оценку по шкале от 0 до 10. Стоимость: несколько центов за полный прогон.

Дедупликация чанков

В двух оборотах в окне контекста были три почти идентичных чанка из FAQ. Добавление проверки на >80% совпадения токенов из того же исходного файла очистило контекст, сократило количество токенов и остановило галлюцинацию названий продуктов в одном обороте.

Компромисс более строгой привязки

Добавление правила, что агент сообщает только факты из полученных документов, повысило точность, но снизило полезность в оборотах, где в документах не было информации: бот начал говорить «документы этого не указывают, обратитесь в поддержку» вместо того, чтобы догадываться. Автор отмечает, что это правильное решение для бота техподдержки, основанного на фактах, но его нужно принимать осознанно.

Результаты сравнения моделей

Запуск того же оценочного инструмента на 5 моделях показал, что Gemma 4 26B набрала 7,88 против 7,33 у оригинального Gemini 3.1 Flash Lite Preview — и стоила на 75% меньше за сессию. Mistral Small 3.2 занял второе место с небольшим отрывом. Nova Micro была самой дешевой, но краткие ответы получили штраф за отсутствие конкретных действий. В целом качество улучшилось с 6,62 до 7,88 (+19%), а стоимость снизилась с $0,002420 до $0,000509 за сессию (−79%).

Вся оценка проводилась с помощью Neo AI Engineer, который создал оценочный инструмент, обрабатывал чекпоинты, решал проблемы с тайм-аутом и лимитами контекста и обобщал результаты. Автор вручную проверил всё.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Гайды

Контрольный список перед запуском OpenClaw для обеспечения безопасности и надежности

Пользователь Reddit делится практическим шестипунктным чек-листом для настройки OpenClaw перед запуском, охватывающим контроль доступа, правила безопасности, управление памятью, тестирование автоматизации, проверку доставки и обработку сбоев.

27 мар. 2026 г., 21:45 UTC

OpenClawRadar

Гайды

5 распространенных ошибок настройки OpenClaw и как их исправить

Практические решения пяти самых распространенных ошибок при настройке OpenClaw: отсутствие постоянной памяти, отсутствие исходящего доступа, перегруженный системный промпт, отсутствие поведения при ошибке и использование только одной модели.

24 июн. 2026 г., 12:20 UTC

OpenClawRadar

Гайды

Использование паттерна Диспетчер для снижения затрат на API Claude на 95%

Разработчик сократил свои расходы на API Claude с $800–$2000/месяц до примерно $215/месяц, внедрив паттерн диспетчера, который делегирует тяжёлую работу в Claude Code CLI по подписке Claude Max, используя минимальное количество токенов API для оркестрации.

15 апр. 2026 г., 11:45 UTC

OpenClawRadar

Гайды

Постмортем: Ошибки биллинга Claude Max + OpenClaw из-за устаревшего OAuth и изолированных задач cron

Агент OpenClaw случайно ломается из-за устаревшего OAuth-токена, который блокирует весь провайдер Anthropic, а изолированные задачи cron попадают в отдельный биллинговый пул Extra Usage. Полное решение: удалить ручной профиль, перенести cron в основную сессию, очистить блокировку биллинга.

12 мая 2026 г., 06:16 UTC

OpenClawRadar