Bot RAG: Barrido de modelos reduce costos 79% y mejora calidad 19%

Un usuario de Reddit realizó una evaluación completa de un chatbot RAG de atención al cliente que funcionaba con ChromaDB con un umbral de similitud predeterminado de 0.7 (distancia coseno) y usaba Gemini 3.1 Flash Lite Preview para la generación. Descubrió que el modelo más caro era el peor en rendimiento y que varios cambios no obvios realmente marcaron la diferencia.

Problemas de Recuperación Disfrazados de Problemas del LLM

El bot respondía "No tengo acceso a información específica sobre los servicios de nuestra empresa" cuando los usuarios hacían preguntas informales como "oye, ¿qué hacen?". El instinto era ajustar los prompts o cambiar de modelo, pero la causa raíz era la recuperación: el umbral de similitud en ChromaDB estaba configurado en 0.7 (distancia coseno, menor = más similar, por lo tanto estricto). Las preguntas informales no producían embeddings lo suficientemente cercanos a ningún fragmento, por lo que no se recuperaba ningún documento. La lección: registra qué contexto recibe realmente el LLM antes de culpar a la generación. Si la recuperación no devuelve nada, ningún ajuste de prompt lo soluciona.

Los Evaluadores Heurísticos Son Peores Que Ninguno

La coincidencia de palabras clave y el conteo de referencias a fuentes daban números sin correlación con la satisfacción del usuario. El autor cambió a un juez LLM (Claude Haiku 4.5 vía OpenRouter) que puntuaba relevancia, precisión, utilidad y calidad general en una escala de 0 a 10. Costo: unos pocos centavos por ejecución completa.

Desduplicar Fragmentos

Dos turnos tenían tres fragmentos de FAQ casi idénticos en la ventana de contexto. Agregar una verificación de >80% de superposición de tokens del mismo archivo fuente limpió el contexto, redujo los tokens y detuvo una alucinación de nombres de productos en un turno.

Compensación de Anclaje Más Estricto

Agregar una regla de que el agente solo declare hechos de los documentos recuperados mejoró la precisión, pero redujo la utilidad en turnos con lagunas de conocimiento: el bot comenzó a decir "los documentos no especifican esto, contacta al soporte" en lugar de adivinar. El autor señala que esta es la decisión correcta para un bot de soporte factual, pero debe tomarse de forma consciente.

Resultados del Barrido de Modelos

Ejecutar el mismo arnés de evaluación en 5 modelos mostró que Gemma 4 26B obtuvo 7.88 frente al original Gemini 3.1 Flash Lite Preview con 7.33, y costó un 75% menos por sesión. Mistral Small 3.2 fue el segundo cercano. Nova Micro fue el más barato, pero las respuestas concisas fueron penalizadas por no ser accionables. En general, la calidad mejoró de 6.62 a 7.88 (+19%) y el costo bajó de $0.002420 a $0.000509 por sesión (−79%).

La evaluación completa se realizó con Neo AI Engineer, que construyó el arnés de evaluación, manejó las ejecuciones con puntos de control, resolvió problemas de tiempo de espera y límites de contexto, y consolidó los resultados. El autor revisó todo manualmente.

📖 Lee la fuente completa: r/LocalLLaMA