Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade

✍️ OpenClawRadar📅 Publicado: March 19, 2026🔗 Source
Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade
Ad

Dorian Smiley e Connor Deeks, fundadores do serviço de consultoria em IA Codestrap, argumentam que as organizações empresariais estão lutando para implementar a IA de forma eficaz porque não há um manual estabelecido para arquiteturas de referência ou casos de uso. Eles afirmam que muitas empresas fingem ter estratégias de IA enquanto carecem de ciclos de feedback adequados para medir o impacto real.

Métricas problemáticas e resultados falhos

Smiley afirma que a avaliação atual da IA na programação se concentra nas métricas erradas: "Linhas de código, número de [pull requests], são passivos. Não são medidas de excelência em engenharia." Ele identifica as métricas adequadas de engenharia como frequência de implantação, tempo de espera para produção, taxa de falha de alteração, tempo médio de restauração e gravidade de incidentes.

Para ilustrar as consequências da má medição, Smiley cita uma tentativa recente de reescrever o SQLite em Rust usando IA: "Passou em todos os testes unitários, a estrutura do código parece correta. São 3,7 vezes mais linhas de código que performam 2.000 vezes pior do que o SQLite real. Duas mil vezes pior para um banco de dados é um produto inviável."

Ad

Limitações fundamentais dos LLMs

Deeks aponta problemas fundamentais com a tecnologia atual de LLMs: "É difícil ensinar novos fatos a eles. É difícil recuperar fatos de forma confiável. A passagem direta pelas redes neurais é não determinística, especialmente quando você tem modelos de raciocínio que envolvem um monólogo interno para aumentar a eficiência da previsão do próximo token, o que significa que você obterá uma resposta diferente a cada vez."

Smiley acrescenta: "E eles não têm capacidades de raciocínio indutivo. Um modelo não pode verificar seu próprio trabalho. Ele não sabe se a resposta que deu está correta. Esses são problemas fundamentais que ninguém resolveu na tecnologia de LLMs."

Nova abordagem de medição proposta

Os fundadores defendem o desenvolvimento de novas métricas especificamente para engenharia assistida por IA. Smiley sugere uma métrica potencial: "medir tokens consumidos para chegar a um pull request aprovado – uma mudança formalmente aceita no software." Ele enfatiza que as organizações precisam experimentar e iterar em ciclos de feedback porque "a IA ainda não funciona muito bem" mesmo dentro de contextos de programação.

Deeks faz referência a recentes interrupções da Amazon e AWS como indicadores de possíveis problemas futuros, embora a Amazon tenha afirmado que esses incidentes não estavam relacionados à IA.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Anthropic Lança Canais Claude Code para Integração de Mensagens
News

Anthropic Lança Canais Claude Code para Integração de Mensagens

A Anthropic lançou os Claude Code Channels, permitindo que desenvolvedores enviem mensagens diretas para sessões do Claude Code a partir do Telegram ou Discord com acesso completo a ferramentas, incluindo edição de arquivos, execução de testes e operações git. O recurso requer um plano pago da Anthropic e suporta duas plataformas em comparação com as 20+ do OpenClaw.

OpenClawRadar
Local Qwen 3.6 vs Modelos de Fronteira em um Primitivo de Codificação: Animação de Condução em Canvas HTML de Arquivo Único
News

Local Qwen 3.6 vs Modelos de Fronteira em um Primitivo de Codificação: Animação de Condução em Canvas HTML de Arquivo Único

Um usuário do Reddit comparou quantizações locais do Qwen 3.6 com modelos de fronteira (Claude, Gemini, GPT, Kimi) em uma tarefa densa de animação de direção em canvas HTML em arquivo único. O Qwen 3.6-27B Q4_K_M local entregou movimento e camadas mais naturais do que algumas saídas de fronteira.

OpenClawRadar
Problemas de Acesso à Interface de Controle LAN em Redes Docker OpenClaw Bridge
News

Problemas de Acesso à Interface de Controle LAN em Redes Docker OpenClaw Bridge

Um usuário relata problemas persistentes ao acessar a Control-UI do OpenClaw via conexões LAN em redes de ponte Docker, com a versão 2026.3.14 suportando brevemente o acesso baseado em token antes que versões subsequentes revertessem para exigir emparelhamento e lançar erros de escopo.

OpenClawRadar
Programa ACCESS do Medicare: Modelo de Pagamento Criado para Agentes de IA, Detalhes Internos
News

Programa ACCESS do Medicare: Modelo de Pagamento Criado para Agentes de IA, Detalhes Internos

O programa ACCESS do CMS paga por cuidados crônicos baseados em IA, não apenas por tempo com médicos. A IA de voz Flora da Pair Team reduziu visitas ao pronto-socorro em 50%. A coorte entra em operação em 5 de julho.

OpenClawRadar