Crítica a métricas de IA: Código 3.7x más grande y 2000x peor

Dorian Smiley y Connor Deeks, fundadores del servicio de asesoría en IA Codestrap, argumentan que las organizaciones empresariales están luchando por implementar la IA de manera efectiva porque no existe un manual establecido para arquitecturas de referencia o casos de uso. Sostienen que muchas empresas fingen tener estrategias de IA mientras carecen de ciclos de retroalimentación adecuados para medir el impacto real.

Métricas problemáticas y resultados defectuosos

Smiley afirma que la evaluación actual de la codificación con IA se centra en las métricas equivocadas: "Líneas de código, número de [solicitudes de extracción], estos son pasivos. No son medidas de excelencia en ingeniería". Identifica las métricas de ingeniería adecuadas como frecuencia de implementación, tiempo de entrega a producción, tasa de fallos en cambios, tiempo medio de restauración y gravedad de incidentes.

Para ilustrar las consecuencias de una medición deficiente, Smiley cita un intento reciente de reescribir SQLite en Rust usando IA: "Pasó todas las pruebas unitarias, la estructura del código parece correcta. Tiene 3,7 veces más líneas de código y funciona 2000 veces peor que el SQLite real. Dos mil veces peor para una base de datos es un producto no viable".

Limitaciones fundamentales de los LLM

Deeks señala problemas fundamentales con la tecnología actual de LLM: "Es difícil enseñarles nuevos hechos. Es difícil recuperar hechos de manera confiable. El paso hacia adelante a través de las redes neuronales no es determinista, especialmente cuando tienes modelos de razonamiento que activan un monólogo interno para aumentar la eficiencia de la predicción del siguiente token, lo que significa que obtendrás una respuesta diferente cada vez".

Smiley agrega: "Y no tienen capacidades de razonamiento inductivo. Un modelo no puede verificar su propio trabajo. No sabe si la respuesta que te dio es correcta. Esos son problemas fundamentales que nadie ha resuelto en la tecnología de LLM".

Nuevo enfoque de medición propuesto

Los fundadores abogan por desarrollar nuevas métricas específicamente para la ingeniería asistida por IA. Smiley sugiere una métrica potencial: "medir los tokens consumidos para llegar a una solicitud de extracción aprobada: un cambio formalmente aceptado en el software". Enfatiza que las organizaciones necesitan experimentar e iterar en ciclos de retroalimentación porque "la IA todavía no funciona muy bien" incluso dentro de contextos de codificación.

Deeks hace referencia a las recientes interrupciones de Amazon y AWS como indicadores de posibles problemas futuros, aunque Amazon ha declarado que estos incidentes no estaban relacionados con la IA.

📖 Leer la fuente completa: HN AI Agents

Los fundadores de Codestrap critican las métricas de codificación con IA y advierten sobre problemas de calidad.

Métricas problemáticas y resultados defectuosos

Limitaciones fundamentales de los LLM

Nuevo enfoque de medición propuesto

👀 Ver también

Codificación de ambiente vs. Realidad de producción: Los pasivos no discutidos

La IA se come el mundo (Primavera 2026) – Un análisis exhaustivo del mercado

La paradoja de construir vs. comprar en la era de los agentes de IA

Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026