Tasa de Alucinación en IA: De 3% a 28% con Más Tokens

Resultados de Pruebas de Rendimiento de Ventana de Contexto

Un desarrollador probó la degradación de la calidad del contexto en diferentes conteos de tokens en agentes de IA, revelando problemas significativos de rendimiento a medida que aumenta el tamaño del contexto.

Hallazgos Clave de las Pruebas

Las pruebas midieron varias métricas críticas:

Tasas de alucinación por tamaño de contexto:
- 10K tokens: ~3%
- 50K tokens: ~11%
- 200K tokens: ~28%
- 1M tokens: no está claro, pero la tendencia muestra una degradación creciente
Precisión de recuperación: Ningún modelo probado (incluyendo GPT-4, Claude o modelos locales) logró un 90% de recuperación en información de las primeras 10 interacciones una vez que el contexto superó los 50K tokens.
Eficiencia de tokens: Con 200K tokens, el porcentaje de contexto realmente relevante para la consulta actual cae por debajo del 12% en la mayoría de las tareas del agente, lo que significa que aproximadamente 188K tokens añaden ruido que el modelo debe procesar.

Análisis del Problema

El problema parece ser de falta de atención más que de olvido. El contexto inicial compite con el contexto reciente, y el contexto reciente generalmente gana debido a una mayor relevancia posicional. Esto hace que las restricciones establecidas al inicio de las sesiones (como "usar PostgreSQL, sin ORMs") se diluyan progresivamente a medida que se acumula más contexto.

Para la interacción 89 con 200K tokens, la atención del modelo está tan dispersa en el contexto que las restricciones iniciales efectivamente desaparecen.

Soluciones Actuales y Limitaciones

Muchos desarrolladores añaden bases de datos vectoriales para recuperar "recuerdos" relevantes, lo que ayuda en cierta medida. Sin embargo, este enfoque recupera contenido semánticamente similar en lugar de lo que el agente necesita para un razonamiento correcto. Por ejemplo, "usar PostgreSQL" no es semánticamente similar a "escríbeme un endpoint de inicio de sesión" aunque necesita estar en contexto para una ejecución adecuada.

El desarrollador está buscando comentarios sobre si estos hallazgos coinciden con experiencias en producción y qué enfoques han funcionado realmente para otros.

📖 Leer la fuente completa: r/LocalLLaMA

Degradación de la Calidad del Contexto en Agentes de IA: Las Tasas de Alucinación Aumentan con el Número de Tokens

Resultados de Pruebas de Rendimiento de Ventana de Contexto

Hallazgos Clave de las Pruebas

Análisis del Problema

Soluciones Actuales y Limitaciones

👀 Ver también

Trump retira la orden ejecutiva sobre IA por temor a frenar la tecnología estadounidense

Anthropic retrasa los cambios en los límites de tasa de la API de Claude Code

Claude MAX Plan Ahora Incluye Ventana de Contexto de 1 Millón de Tokens Sin Costo Adicional

Ubuntu Linux integrará funciones de IA en el próximo año, comenzando con inferencia local