Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade

Dorian Smiley e Connor Deeks, fundadores do serviço de consultoria em IA Codestrap, argumentam que as organizações empresariais estão lutando para implementar a IA de forma eficaz porque não há um manual estabelecido para arquiteturas de referência ou casos de uso. Eles afirmam que muitas empresas fingem ter estratégias de IA enquanto carecem de ciclos de feedback adequados para medir o impacto real.
Métricas problemáticas e resultados falhos
Smiley afirma que a avaliação atual da IA na programação se concentra nas métricas erradas: "Linhas de código, número de [pull requests], são passivos. Não são medidas de excelência em engenharia." Ele identifica as métricas adequadas de engenharia como frequência de implantação, tempo de espera para produção, taxa de falha de alteração, tempo médio de restauração e gravidade de incidentes.
Para ilustrar as consequências da má medição, Smiley cita uma tentativa recente de reescrever o SQLite em Rust usando IA: "Passou em todos os testes unitários, a estrutura do código parece correta. São 3,7 vezes mais linhas de código que performam 2.000 vezes pior do que o SQLite real. Duas mil vezes pior para um banco de dados é um produto inviável."
Limitações fundamentais dos LLMs
Deeks aponta problemas fundamentais com a tecnologia atual de LLMs: "É difícil ensinar novos fatos a eles. É difícil recuperar fatos de forma confiável. A passagem direta pelas redes neurais é não determinística, especialmente quando você tem modelos de raciocínio que envolvem um monólogo interno para aumentar a eficiência da previsão do próximo token, o que significa que você obterá uma resposta diferente a cada vez."
Smiley acrescenta: "E eles não têm capacidades de raciocínio indutivo. Um modelo não pode verificar seu próprio trabalho. Ele não sabe se a resposta que deu está correta. Esses são problemas fundamentais que ninguém resolveu na tecnologia de LLMs."
Nova abordagem de medição proposta
Os fundadores defendem o desenvolvimento de novas métricas especificamente para engenharia assistida por IA. Smiley sugere uma métrica potencial: "medir tokens consumidos para chegar a um pull request aprovado – uma mudança formalmente aceita no software." Ele enfatiza que as organizações precisam experimentar e iterar em ciclos de feedback porque "a IA ainda não funciona muito bem" mesmo dentro de contextos de programação.
Deeks faz referência a recentes interrupções da Amazon e AWS como indicadores de possíveis problemas futuros, embora a Amazon tenha afirmado que esses incidentes não estavam relacionados à IA.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Anthropic Lança Canais Claude Code para Integração de Mensagens
A Anthropic lançou os Claude Code Channels, permitindo que desenvolvedores enviem mensagens diretas para sessões do Claude Code a partir do Telegram ou Discord com acesso completo a ferramentas, incluindo edição de arquivos, execução de testes e operações git. O recurso requer um plano pago da Anthropic e suporta duas plataformas em comparação com as 20+ do OpenClaw.

Local Qwen 3.6 vs Modelos de Fronteira em um Primitivo de Codificação: Animação de Condução em Canvas HTML de Arquivo Único
Um usuário do Reddit comparou quantizações locais do Qwen 3.6 com modelos de fronteira (Claude, Gemini, GPT, Kimi) em uma tarefa densa de animação de direção em canvas HTML em arquivo único. O Qwen 3.6-27B Q4_K_M local entregou movimento e camadas mais naturais do que algumas saídas de fronteira.

Problemas de Acesso à Interface de Controle LAN em Redes Docker OpenClaw Bridge
Um usuário relata problemas persistentes ao acessar a Control-UI do OpenClaw via conexões LAN em redes de ponte Docker, com a versão 2026.3.14 suportando brevemente o acesso baseado em token antes que versões subsequentes revertessem para exigir emparelhamento e lançar erros de escopo.

Programa ACCESS do Medicare: Modelo de Pagamento Criado para Agentes de IA, Detalhes Internos
O programa ACCESS do CMS paga por cuidados crônicos baseados em IA, não apenas por tempo com médicos. A IA de voz Flora da Pair Team reduziu visitas ao pronto-socorro em 50%. A coorte entra em operação em 5 de julho.