Оценка RAG-чатбота: как прогон модели + исправление ретривера сократили затраты на 79% и повысили качество на 19%

✍️ OpenClawRadar📅 Опубликовано: 15 мая 2026 г.🔗 Source
Оценка RAG-чатбота: как прогон модели + исправление ретривера сократили затраты на 79% и повысили качество на 19%
Ad

Пользователь Reddit провел полную оценку RAG-чатбота для поддержки клиентов, который работал на ChromaDB с порогом схожести по умолчанию 0,7 (косинусное расстояние) и использовал Gemini 3.1 Flash Lite Preview для генерации. Он обнаружил, что самая дорогая модель показала наихудшие результаты, а несколько неочевидных изменений действительно повлияли на эффективность.

Проблемы поиска, маскирующиеся под проблемы LLM

Бот отвечал «У меня нет доступа к конкретной информации об услугах нашей компании», когда пользователи задавали неформальные вводные вопросы вроде «эй, чем вы занимаетесь?». Инстинктивно хотелось изменить промпты или заменить модель, но корень проблемы был в поиске: порог схожести в ChromaDB был установлен на 0,7 (косинусное расстояние, где меньшее значение означает большую схожесть, так что порог на самом деле строгий). Неформальные вводные не давали эмбеддингов, достаточно близких к какому-либо чанку, поэтому не было получено ни одного документа. Урок: логируйте, какой контекст на самом деле получает LLM, прежде чем обвинять генерацию. Если поиск ничего не возвращает, никакое инженерное улучшение промптов это не исправит.

Эвристические оценщики хуже, чем их отсутствие

Сопоставление ключевых слов и подсчет ссылок на источники давали числа, не коррелирующие с удовлетворенностью пользователей. Автор перешел на LLM-судью (Claude Haiku 4.5 через OpenRouter), который оценивал релевантность, точность, полезность и общую оценку по шкале от 0 до 10. Стоимость: несколько центов за полный прогон.

Ad

Дедупликация чанков

В двух оборотах в окне контекста были три почти идентичных чанка из FAQ. Добавление проверки на >80% совпадения токенов из того же исходного файла очистило контекст, сократило количество токенов и остановило галлюцинацию названий продуктов в одном обороте.

Компромисс более строгой привязки

Добавление правила, что агент сообщает только факты из полученных документов, повысило точность, но снизило полезность в оборотах, где в документах не было информации: бот начал говорить «документы этого не указывают, обратитесь в поддержку» вместо того, чтобы догадываться. Автор отмечает, что это правильное решение для бота техподдержки, основанного на фактах, но его нужно принимать осознанно.

Результаты сравнения моделей

Запуск того же оценочного инструмента на 5 моделях показал, что Gemma 4 26B набрала 7,88 против 7,33 у оригинального Gemini 3.1 Flash Lite Preview — и стоила на 75% меньше за сессию. Mistral Small 3.2 занял второе место с небольшим отрывом. Nova Micro была самой дешевой, но краткие ответы получили штраф за отсутствие конкретных действий. В целом качество улучшилось с 6,62 до 7,88 (+19%), а стоимость снизилась с $0,002420 до $0,000509 за сессию (−79%).

Вся оценка проводилась с помощью Neo AI Engineer, который создал оценочный инструмент, обрабатывал чекпоинты, решал проблемы с тайм-аутом и лимитами контекста и обобщал результаты. Автор вручную проверил всё.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Освоение OpenClaw 101: Руководство для начинающих, вдохновленное идеями пользователей Reddit.
Гайды

Освоение OpenClaw 101: Руководство для начинающих, вдохновленное идеями пользователей Reddit.

Погрузитесь в OpenClaw с нашим практическим руководством, вдохновленным мнениями сообщества Reddit. Избегайте распространенных ошибок и повышайте свою продуктивность с помощью этих экспертных советов.

OpenClawRadar
Отладка тайм-утов OpenClaw + Ollama (локальная модель): пять решений для тихих сбоев
Гайды

Отладка тайм-утов OpenClaw + Ollama (локальная модель): пять решений для тихих сбоев

Разработчик определил пять основных причин беззвучных таймаутов агентов OpenClaw с локальными моделями Ollama, такими как Gemma 4 26B, включая блокирующий генератор слагов, системный промпт на 38 тысяч символов и скрытые таймауты. Исправления включают отключение хуков, изменение конфигураций и настройку параметров Ollama.

OpenClawRadar
Создание бессерверной платформы для ИИ-агентов на AWS за $0.01 в месяц с помощью Claude Code
Гайды

Создание бессерверной платформы для ИИ-агентов на AWS за $0.01 в месяц с помощью Claude Code

Разработчик создал полноценную бессерверную платформу на AWS для запуска ИИ-агентов примерно за $0,01 в месяц, используя Claude Code в течение 29 часов, исключив дорогие компоненты, такие как NAT Gateway ($32/месяц) и ALB ($18/месяц). Проект включает 233 модульных теста, 35 сквозных тестов и развертывается одной командой cdk deploy.

OpenClawRadar
Охота на баги: Сбои WireGuard и несоответствие MTU в GKE
Гайды

Охота на баги: Сбои WireGuard и несоответствие MTU в GKE

Инженеры Lovable отследили пользовательские ошибки до крахов anetd из-за паники конкурентного доступа к карте в интеграции WireGuard от Google, а затем обнаружили вторичное несоответствие MTU после отключения шифрования.

OpenClawRadar