Fundadores Codestrap criticam métricas IA: código 3,7x maior e 2000x pior

Dorian Smiley e Connor Deeks, fundadores do serviço de consultoria em IA Codestrap, argumentam que as organizações empresariais estão lutando para implementar a IA de forma eficaz porque não há um manual estabelecido para arquiteturas de referência ou casos de uso. Eles afirmam que muitas empresas fingem ter estratégias de IA enquanto carecem de ciclos de feedback adequados para medir o impacto real.

Métricas problemáticas e resultados falhos

Smiley afirma que a avaliação atual da IA na programação se concentra nas métricas erradas: "Linhas de código, número de [pull requests], são passivos. Não são medidas de excelência em engenharia." Ele identifica as métricas adequadas de engenharia como frequência de implantação, tempo de espera para produção, taxa de falha de alteração, tempo médio de restauração e gravidade de incidentes.

Para ilustrar as consequências da má medição, Smiley cita uma tentativa recente de reescrever o SQLite em Rust usando IA: "Passou em todos os testes unitários, a estrutura do código parece correta. São 3,7 vezes mais linhas de código que performam 2.000 vezes pior do que o SQLite real. Duas mil vezes pior para um banco de dados é um produto inviável."

Limitações fundamentais dos LLMs

Deeks aponta problemas fundamentais com a tecnologia atual de LLMs: "É difícil ensinar novos fatos a eles. É difícil recuperar fatos de forma confiável. A passagem direta pelas redes neurais é não determinística, especialmente quando você tem modelos de raciocínio que envolvem um monólogo interno para aumentar a eficiência da previsão do próximo token, o que significa que você obterá uma resposta diferente a cada vez."

Smiley acrescenta: "E eles não têm capacidades de raciocínio indutivo. Um modelo não pode verificar seu próprio trabalho. Ele não sabe se a resposta que deu está correta. Esses são problemas fundamentais que ninguém resolveu na tecnologia de LLMs."

Nova abordagem de medição proposta

Os fundadores defendem o desenvolvimento de novas métricas especificamente para engenharia assistida por IA. Smiley sugere uma métrica potencial: "medir tokens consumidos para chegar a um pull request aprovado – uma mudança formalmente aceita no software." Ele enfatiza que as organizações precisam experimentar e iterar em ciclos de feedback porque "a IA ainda não funciona muito bem" mesmo dentro de contextos de programação.

Deeks faz referência a recentes interrupções da Amazon e AWS como indicadores de possíveis problemas futuros, embora a Amazon tenha afirmado que esses incidentes não estavam relacionados à IA.

📖 Leia a fonte completa: HN AI Agents

Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade

Métricas problemáticas e resultados falhos

Limitações fundamentais dos LLMs

Nova abordagem de medição proposta

👀 See Also

Vendas de Placas-Mãe Caem Mais de 25% Enquanto Produção de Chips de IA Exclui Componentes de PCs de Consumo

Alterações de Configuração com Kimi 2.5 e Opus 4.6

Gemini 3.1 Flash Live: o mais recente modelo de áudio do Google com benchmarks aprimorados e marca d'água

Claude agora se conecta ao Adobe Creative Cloud, Blender, Ableton e mais