Los fundadores de Codestrap critican las métricas de codificación con IA y advierten sobre problemas de calidad.

Dorian Smiley y Connor Deeks, fundadores del servicio de asesoría en IA Codestrap, argumentan que las organizaciones empresariales están luchando por implementar la IA de manera efectiva porque no existe un manual establecido para arquitecturas de referencia o casos de uso. Sostienen que muchas empresas fingen tener estrategias de IA mientras carecen de ciclos de retroalimentación adecuados para medir el impacto real.
Métricas problemáticas y resultados defectuosos
Smiley afirma que la evaluación actual de la codificación con IA se centra en las métricas equivocadas: "Líneas de código, número de [solicitudes de extracción], estos son pasivos. No son medidas de excelencia en ingeniería". Identifica las métricas de ingeniería adecuadas como frecuencia de implementación, tiempo de entrega a producción, tasa de fallos en cambios, tiempo medio de restauración y gravedad de incidentes.
Para ilustrar las consecuencias de una medición deficiente, Smiley cita un intento reciente de reescribir SQLite en Rust usando IA: "Pasó todas las pruebas unitarias, la estructura del código parece correcta. Tiene 3,7 veces más líneas de código y funciona 2000 veces peor que el SQLite real. Dos mil veces peor para una base de datos es un producto no viable".
Limitaciones fundamentales de los LLM
Deeks señala problemas fundamentales con la tecnología actual de LLM: "Es difícil enseñarles nuevos hechos. Es difícil recuperar hechos de manera confiable. El paso hacia adelante a través de las redes neuronales no es determinista, especialmente cuando tienes modelos de razonamiento que activan un monólogo interno para aumentar la eficiencia de la predicción del siguiente token, lo que significa que obtendrás una respuesta diferente cada vez".
Smiley agrega: "Y no tienen capacidades de razonamiento inductivo. Un modelo no puede verificar su propio trabajo. No sabe si la respuesta que te dio es correcta. Esos son problemas fundamentales que nadie ha resuelto en la tecnología de LLM".
Nuevo enfoque de medición propuesto
Los fundadores abogan por desarrollar nuevas métricas específicamente para la ingeniería asistida por IA. Smiley sugiere una métrica potencial: "medir los tokens consumidos para llegar a una solicitud de extracción aprobada: un cambio formalmente aceptado en el software". Enfatiza que las organizaciones necesitan experimentar e iterar en ciclos de retroalimentación porque "la IA todavía no funciona muy bien" incluso dentro de contextos de codificación.
Deeks hace referencia a las recientes interrupciones de Amazon y AWS como indicadores de posibles problemas futuros, aunque Amazon ha declarado que estos incidentes no estaban relacionados con la IA.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

MCP no es más que bibliotecas reempaquetadas: déjà vu una vez más
Un debate en Reddit argumenta que el MCP de Anthropic es esencialmente un reempaquetado de bibliotecas de programación, estableciendo paralelismos con el diseño de herramientas smolagents de Hugging Face y cuestionando si construir nuevos MCP o mejorar la documentación de bibliotecas existentes.

El costo oculto del código generado por IA: depurar espagueti
Una publicación de Reddit captura la realidad de enviar código generado por IA rápidamente, para luego pasar semanas depurando funciones hinchadas, errores de estado nulo y nombres de variables crípticos.

Lo que falta en la narrativa "agentiva": un rol de usuario agente bien definido
Mark Nottingham sostiene que los agentes de IA actuales carecen de un rol claro de agente de usuario, creando una brecha de confianza entre lo que los usuarios esperan y lo que los agentes realmente hacen.

Cuando preguntarle a Claude sobre regex lleva a una inmersión nocturna en el diseño de compiladores
Un usuario de Reddit le pidió a Claude que explicara una expresión regular y terminó en una conversación de 45 minutos sobre analizadores sintácticos, diseño de compiladores y teoría del lenguaje, cuestionando su carrera.