Degradación de la Calidad del Contexto en Agentes de IA: Las Tasas de Alucinación Aumentan con el Número de Tokens

✍️ OpenClawRadar📅 Publicado: 28 de marzo de 2026🔗 Source
Degradación de la Calidad del Contexto en Agentes de IA: Las Tasas de Alucinación Aumentan con el Número de Tokens
Ad

Resultados de Pruebas de Rendimiento de Ventana de Contexto

Un desarrollador probó la degradación de la calidad del contexto en diferentes conteos de tokens en agentes de IA, revelando problemas significativos de rendimiento a medida que aumenta el tamaño del contexto.

Hallazgos Clave de las Pruebas

Las pruebas midieron varias métricas críticas:

  • Tasas de alucinación por tamaño de contexto:
    • 10K tokens: ~3%
    • 50K tokens: ~11%
    • 200K tokens: ~28%
    • 1M tokens: no está claro, pero la tendencia muestra una degradación creciente
  • Precisión de recuperación: Ningún modelo probado (incluyendo GPT-4, Claude o modelos locales) logró un 90% de recuperación en información de las primeras 10 interacciones una vez que el contexto superó los 50K tokens.
  • Eficiencia de tokens: Con 200K tokens, el porcentaje de contexto realmente relevante para la consulta actual cae por debajo del 12% en la mayoría de las tareas del agente, lo que significa que aproximadamente 188K tokens añaden ruido que el modelo debe procesar.
Ad

Análisis del Problema

El problema parece ser de falta de atención más que de olvido. El contexto inicial compite con el contexto reciente, y el contexto reciente generalmente gana debido a una mayor relevancia posicional. Esto hace que las restricciones establecidas al inicio de las sesiones (como "usar PostgreSQL, sin ORMs") se diluyan progresivamente a medida que se acumula más contexto.

Para la interacción 89 con 200K tokens, la atención del modelo está tan dispersa en el contexto que las restricciones iniciales efectivamente desaparecen.

Soluciones Actuales y Limitaciones

Muchos desarrolladores añaden bases de datos vectoriales para recuperar "recuerdos" relevantes, lo que ayuda en cierta medida. Sin embargo, este enfoque recupera contenido semánticamente similar en lugar de lo que el agente necesita para un razonamiento correcto. Por ejemplo, "usar PostgreSQL" no es semánticamente similar a "escríbeme un endpoint de inicio de sesión" aunque necesita estar en contexto para una ejecución adecuada.

El desarrollador está buscando comentarios sobre si estos hallazgos coinciden con experiencias en producción y qué enfoques han funcionado realmente para otros.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

OpenClaw 2026.4.29 Rompe Configuraciones: Picos de CPU, Restricciones de Herramientas y Soluciones
Noticias

OpenClaw 2026.4.29 Rompe Configuraciones: Picos de CPU, Restricciones de Herramientas y Soluciones

OpenClaw 2026.4.29 introduce picos de CPU debido al steering activo de ejecución, perfiles de herramientas restringidos que rompen comandos exec/fs y manejo más estricto de chats grupales. Revierte o aplica correcciones específicas.

OpenClawRadar
Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas
Noticias

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas

Los usuarios de OpenClaw reportan errores persistentes HTTP 422 con los modelos Mistral desde la actualización 2026.3.8, sin correcciones en las versiones posteriores hasta la 2026.3.13. El problema afecta toda la funcionalidad relacionada con Mistral, mientras que las llamadas directas a la API funcionan con normalidad.

OpenClawRadar
TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas
Noticias

TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas

Una auditoría humana MQM marcó el 71% de los segmentos de traducción que las métricas automatizadas calificaron como limpios, y todos los 25 errores de precisión estaban en el cuadrante ciego a las métricas.

OpenClawRadar
Claude-Code v2.1.97 Lanzamiento: Mejoras NO_FLICKER, Correcciones de Permisos y Actualizaciones MCP
Noticias

Claude-Code v2.1.97 Lanzamiento: Mejoras NO_FLICKER, Correcciones de Permisos y Actualizaciones MCP

Claude-Code v2.1.97 añade un interruptor de vista de enfoque (Ctrl+O) en el modo NO_FLICKER, corrige múltiples problemas de permisos y conexiones MCP, y mejora el acceso a la red del sandbox. La versión aborda el comportamiento de reintentos 429, problemas de persistencia de transcripciones y varios errores de interfaz de usuario.

OpenClawRadar