Оценка RAG-чатбота: как прогон модели + исправление ретривера сократили затраты на 79% и повысили качество на 19%

Пользователь Reddit провел полную оценку RAG-чатбота для поддержки клиентов, который работал на ChromaDB с порогом схожести по умолчанию 0,7 (косинусное расстояние) и использовал Gemini 3.1 Flash Lite Preview для генерации. Он обнаружил, что самая дорогая модель показала наихудшие результаты, а несколько неочевидных изменений действительно повлияли на эффективность.
Проблемы поиска, маскирующиеся под проблемы LLM
Бот отвечал «У меня нет доступа к конкретной информации об услугах нашей компании», когда пользователи задавали неформальные вводные вопросы вроде «эй, чем вы занимаетесь?». Инстинктивно хотелось изменить промпты или заменить модель, но корень проблемы был в поиске: порог схожести в ChromaDB был установлен на 0,7 (косинусное расстояние, где меньшее значение означает большую схожесть, так что порог на самом деле строгий). Неформальные вводные не давали эмбеддингов, достаточно близких к какому-либо чанку, поэтому не было получено ни одного документа. Урок: логируйте, какой контекст на самом деле получает LLM, прежде чем обвинять генерацию. Если поиск ничего не возвращает, никакое инженерное улучшение промптов это не исправит.
Эвристические оценщики хуже, чем их отсутствие
Сопоставление ключевых слов и подсчет ссылок на источники давали числа, не коррелирующие с удовлетворенностью пользователей. Автор перешел на LLM-судью (Claude Haiku 4.5 через OpenRouter), который оценивал релевантность, точность, полезность и общую оценку по шкале от 0 до 10. Стоимость: несколько центов за полный прогон.
Дедупликация чанков
В двух оборотах в окне контекста были три почти идентичных чанка из FAQ. Добавление проверки на >80% совпадения токенов из того же исходного файла очистило контекст, сократило количество токенов и остановило галлюцинацию названий продуктов в одном обороте.
Компромисс более строгой привязки
Добавление правила, что агент сообщает только факты из полученных документов, повысило точность, но снизило полезность в оборотах, где в документах не было информации: бот начал говорить «документы этого не указывают, обратитесь в поддержку» вместо того, чтобы догадываться. Автор отмечает, что это правильное решение для бота техподдержки, основанного на фактах, но его нужно принимать осознанно.
Результаты сравнения моделей
Запуск того же оценочного инструмента на 5 моделях показал, что Gemma 4 26B набрала 7,88 против 7,33 у оригинального Gemini 3.1 Flash Lite Preview — и стоила на 75% меньше за сессию. Mistral Small 3.2 занял второе место с небольшим отрывом. Nova Micro была самой дешевой, но краткие ответы получили штраф за отсутствие конкретных действий. В целом качество улучшилось с 6,62 до 7,88 (+19%), а стоимость снизилась с $0,002420 до $0,000509 за сессию (−79%).
Вся оценка проводилась с помощью Neo AI Engineer, который создал оценочный инструмент, обрабатывал чекпоинты, решал проблемы с тайм-аутом и лимитами контекста и обобщал результаты. Автор вручную проверил всё.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Освоение OpenClaw 101: Руководство для начинающих, вдохновленное идеями пользователей Reddit.
Погрузитесь в OpenClaw с нашим практическим руководством, вдохновленным мнениями сообщества Reddit. Избегайте распространенных ошибок и повышайте свою продуктивность с помощью этих экспертных советов.

Отладка тайм-утов OpenClaw + Ollama (локальная модель): пять решений для тихих сбоев
Разработчик определил пять основных причин беззвучных таймаутов агентов OpenClaw с локальными моделями Ollama, такими как Gemma 4 26B, включая блокирующий генератор слагов, системный промпт на 38 тысяч символов и скрытые таймауты. Исправления включают отключение хуков, изменение конфигураций и настройку параметров Ollama.

Создание бессерверной платформы для ИИ-агентов на AWS за $0.01 в месяц с помощью Claude Code
Разработчик создал полноценную бессерверную платформу на AWS для запуска ИИ-агентов примерно за $0,01 в месяц, используя Claude Code в течение 29 часов, исключив дорогие компоненты, такие как NAT Gateway ($32/месяц) и ALB ($18/месяц). Проект включает 233 модульных теста, 35 сквозных тестов и развертывается одной командой cdk deploy.

Охота на баги: Сбои WireGuard и несоответствие MTU в GKE
Инженеры Lovable отследили пользовательские ошибки до крахов anetd из-за паники конкурентного доступа к карте в интеграции WireGuard от Google, а затем обнаружили вторичное несоответствие MTU после отключения шифрования.