Agentes IA: ¿Por qué fallan en código grande?

El cuello de botella de la ejecución no es el problema

Observaciones del uso en bases de código reales muestran que los agentes de codificación con IA dedican consistentemente un tiempo significativo al descubrimiento en lugar de a la ejecución. Cada vez que un agente aborda una nueva tarea, realiza entre 15 y 20 llamadas a herramientas para actividades de orientación, que incluyen:

Buscar rutas con grep
Leer middleware
Verificar tipos

Para cuando el agente comienza a escribir código, ya ha consumido una parte sustancial de su ventana de contexto en trabajo de descubrimiento.

Evidencia de enfoques simplificados

Vercel demostró este problema desde la dirección opuesta al eliminar el 80% de las herramientas de su agente y darle acceso a bash en su lugar. Este enfoque resultó en un 100% de precisión, sugiriendo que la capacidad de ejecución no es el factor limitante.

De manera similar, Pi (el agente de codificación minimalista) prueba el mismo punto con solo 4 herramientas y un prompt de sistema que contiene menos de 1.000 tokens.

El verdadero desafío: Gestión del contexto

Si la ejecución está efectivamente resuelta, el problema realmente difícil se convierte en la gestión del contexto. Varios factores contribuyen a este desafío:

Las bases de código grandes no caben en ninguna ventana de contexto actual
Las tareas largas acumulan salidas de herramientas que desplazan el razonamiento inicial fuera de la ventana de atención
Los entornos dinámicos cambian entre sesiones
La investigación "Lost in the Middle" muestra que los modelos razonan mejor al inicio de su ventana de contexto — exactamente cuando los agentes aún están buscando

El autor ha publicado un análisis más detallado explorando estos problemas y sus implicaciones para el desarrollo de agentes de codificación con IA.

📖 Read the full source: r/LocalLLaMA

Los agentes de codificación con IA tienen dificultades para gestionar el contexto en bases de código grandes.

El cuello de botella de la ejecución no es el problema

Evidencia de enfoques simplificados

El verdadero desafío: Gestión del contexto

👀 Ver también

NVIDIA anuncia NemoClaw con funciones de seguridad OpenShell.

Estudio de Stanford: Profesores de Derecho Prefieren Respuestas de IA sobre las de sus Colegas el 75% del Tiempo

La filtración del código fuente de la CLI de Claude revela funciones ocultas y banderas internas.

Ubuntu Linux integrará funciones de IA en el próximo año, comenzando con inferencia local