Les fondateurs de Codestrap critiquent les métriques de codage par IA et mettent en garde contre des problèmes de qualité.

Dorian Smiley et Connor Deeks, fondateurs du service de conseil en IA Codestrap, affirment que les grandes entreprises ont du mal à mettre en œuvre l'IA efficacement parce qu'il n'existe pas de guide établi pour les architectures de référence ou les cas d'utilisation. Ils soutiennent que de nombreuses entreprises prétendent avoir des stratégies IA tout en manquant de boucles de rétroaction appropriées pour mesurer l'impact réel.
Métriques problématiques et résultats erronés
Smiley déclare que l'évaluation actuelle du codage IA se concentre sur les mauvaises métriques : « Le nombre de lignes de code, le nombre de [demandes de fusion], ce sont des passifs. Ce ne sont pas des mesures de l'excellence technique. » Il identifie les bonnes métriques techniques comme la fréquence de déploiement, le délai de mise en production, le taux d'échec des modifications, le temps moyen de rétablissement et la gravité des incidents.
Pour illustrer les conséquences d'une mauvaise mesure, Smiley cite une récente tentative de réécrire SQLite en Rust en utilisant l'IA : « Il a passé tous les tests unitaires, la structure du code semble correcte. Mais il contient 3,7 fois plus de lignes de code et fonctionne 2 000 fois moins bien que le véritable SQLite. Deux mille fois moins bien pour une base de données, c'est un produit non viable. »
Limitations fondamentales des LLM
Deeks souligne des problèmes fondamentaux avec la technologie LLM actuelle : « Il est difficile de leur apprendre de nouveaux faits. Il est difficile de récupérer des faits de manière fiable. La passe avant dans les réseaux neuronaux est non déterministe, surtout lorsque vous avez des modèles de raisonnement qui engagent un monologue interne pour augmenter l'efficacité de la prédiction du prochain jeton, ce qui signifie que vous obtiendrez une réponse différente à chaque fois. »
Smiley ajoute : « Et ils n'ont pas de capacités de raisonnement inductif. Un modèle ne peut pas vérifier son propre travail. Il ne sait pas si la réponse qu'il vous a donnée est correcte. Ce sont des problèmes fondamentaux que personne n'a résolus dans la technologie LLM. »
Nouvelle approche de mesure proposée
Les fondateurs plaident pour le développement de nouvelles métriques spécifiquement pour l'ingénierie assistée par l'IA. Smiley suggère une métrique potentielle : « mesurer les jetons consommés pour arriver à une demande de fusion approuvée – un changement formellement accepté dans le logiciel. » Il souligne que les organisations doivent expérimenter et itérer dans des boucles de rétroaction parce que « l'IA ne fonctionne toujours pas très bien », même dans les contextes de codage.
Deeks fait référence aux récentes pannes d'Amazon et d'AWS comme indicateurs de problèmes potentiels futurs, bien qu'Amazon ait déclaré que ces incidents n'étaient pas liés à l'IA.
📖 Read the full source: HN AI Agents
👀 See Also

Améliorations et Corrections de Claude-Code v2.1.45
Claude-Code v2.1.45 introduit la prise en charge de Claude Sonnet 4.6 et diverses corrections pour la stabilité du système.

Anthropic autorise l'utilisation par abonnement de Claude via OpenClaw à partir de juin
Anthropic permettra l'utilisation par abonnement de Claude via OpenClaw à partir de juin, comme annoncé par le compte Twitter OpenClaw Dev.

Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan
Un développeur a évalué les modèles Qwen3.5 (35B MoE, 27B dense, 122B MoE) sur des Mac à puce Apple Silicon et des stations de travail équipées de GPU AMD, en comparant les backends ROCm et Vulkan avec des tests d'échelle de contexte. Le matériel incluait un M5 Max, un M1 Max et trois GPU AMD avec différentes configurations PCIe.

DiLoCo Découplé : Formation Distribuée Résiliente entre Centres de Données avec Faible Bande Passante
Decoupled DiLoCo de Google DeepMind entraîne des LLM à travers des centres de données distants en utilisant un réseau étendu (WAN) de 2 à 5 Gbps, avec des îlots de calcul auto-réparateurs qui isolent les pannes matérielles sans dégrader les performances d'apprentissage automatique.