Los agentes de codificación con IA tienen dificultades para gestionar el contexto en bases de código grandes.

El cuello de botella de la ejecución no es el problema
Observaciones del uso en bases de código reales muestran que los agentes de codificación con IA dedican consistentemente un tiempo significativo al descubrimiento en lugar de a la ejecución. Cada vez que un agente aborda una nueva tarea, realiza entre 15 y 20 llamadas a herramientas para actividades de orientación, que incluyen:
- Buscar rutas con grep
- Leer middleware
- Verificar tipos
Para cuando el agente comienza a escribir código, ya ha consumido una parte sustancial de su ventana de contexto en trabajo de descubrimiento.
Evidencia de enfoques simplificados
Vercel demostró este problema desde la dirección opuesta al eliminar el 80% de las herramientas de su agente y darle acceso a bash en su lugar. Este enfoque resultó en un 100% de precisión, sugiriendo que la capacidad de ejecución no es el factor limitante.
De manera similar, Pi (el agente de codificación minimalista) prueba el mismo punto con solo 4 herramientas y un prompt de sistema que contiene menos de 1.000 tokens.
El verdadero desafío: Gestión del contexto
Si la ejecución está efectivamente resuelta, el problema realmente difícil se convierte en la gestión del contexto. Varios factores contribuyen a este desafío:
- Las bases de código grandes no caben en ninguna ventana de contexto actual
- Las tareas largas acumulan salidas de herramientas que desplazan el razonamiento inicial fuera de la ventana de atención
- Los entornos dinámicos cambian entre sesiones
- La investigación "Lost in the Middle" muestra que los modelos razonan mejor al inicio de su ventana de contexto — exactamente cuando los agentes aún están buscando
El autor ha publicado un análisis más detallado explorando estos problemas y sus implicaciones para el desarrollo de agentes de codificación con IA.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Clanker T1000 de Greg Kroah-Hartman: LLM local en Framework Desktop con AMD Ryzen AI Max fuzzeando errores del kernel de Linux
Greg KH's 'gregkh_clanker_t1000' utiliza un LLM local ejecutándose en un Framework Desktop (AMD Ryzen AI Max+) para fuzzear el kernel de Linux, resultando en ~20 parches fusionados desde el 7 de abril solucionando errores en ALSA, HID, SMB, Nouveau, IO_uring, y más.

Gemma 4 31B supera a modelos más grandes en FoodTruck Bench.
Gemma 4 31B ocupó el tercer lugar en el benchmark FoodTruck Bench, superando a GLM 5, Qwen 3.5 397B y todos los modelos Claude Sonnet. El modelo parece manejar mejor las tareas de largo plazo y sigue sus propios consejos de planificación.

Claude Managed Agents agrega soñar, resultados, orquestación multiagente y webhooks
Soñar es un proceso programado de curación de la memoria que mejoró las tasas de finalización de tareas ~6x en las pruebas de Harvey. Los resultados, la orquestación multiagente y los webhooks ya están en beta pública en la plataforma Claude.

Usuario de Reddit Argumenta que los Desarrolladores Deberían Cambiar de la Codificación Limpia a la Arquitectura de Modelos con Agentes de IA
Una publicación de Reddit argumenta que los desarrolladores que utilizan agentes de codificación con IA como Claude deberían dejar de centrarse en escribir código limpio y convertirse en 'arquitectos de modelos' que orquesten sistemas de IA. El autor comparte técnicas específicas, incluyendo crear 'mapas lógicos' antes de codificar y tratar los prompts como revisiones de diseño.