Codestrap alerte : métriques IA trompeuses, code 2000x moins performant

Dorian Smiley et Connor Deeks, fondateurs du service de conseil en IA Codestrap, affirment que les grandes entreprises ont du mal à mettre en œuvre l'IA efficacement parce qu'il n'existe pas de guide établi pour les architectures de référence ou les cas d'utilisation. Ils soutiennent que de nombreuses entreprises prétendent avoir des stratégies IA tout en manquant de boucles de rétroaction appropriées pour mesurer l'impact réel.

Métriques problématiques et résultats erronés

Smiley déclare que l'évaluation actuelle du codage IA se concentre sur les mauvaises métriques : « Le nombre de lignes de code, le nombre de [demandes de fusion], ce sont des passifs. Ce ne sont pas des mesures de l'excellence technique. » Il identifie les bonnes métriques techniques comme la fréquence de déploiement, le délai de mise en production, le taux d'échec des modifications, le temps moyen de rétablissement et la gravité des incidents.

Pour illustrer les conséquences d'une mauvaise mesure, Smiley cite une récente tentative de réécrire SQLite en Rust en utilisant l'IA : « Il a passé tous les tests unitaires, la structure du code semble correcte. Mais il contient 3,7 fois plus de lignes de code et fonctionne 2 000 fois moins bien que le véritable SQLite. Deux mille fois moins bien pour une base de données, c'est un produit non viable. »

Limitations fondamentales des LLM

Deeks souligne des problèmes fondamentaux avec la technologie LLM actuelle : « Il est difficile de leur apprendre de nouveaux faits. Il est difficile de récupérer des faits de manière fiable. La passe avant dans les réseaux neuronaux est non déterministe, surtout lorsque vous avez des modèles de raisonnement qui engagent un monologue interne pour augmenter l'efficacité de la prédiction du prochain jeton, ce qui signifie que vous obtiendrez une réponse différente à chaque fois. »

Smiley ajoute : « Et ils n'ont pas de capacités de raisonnement inductif. Un modèle ne peut pas vérifier son propre travail. Il ne sait pas si la réponse qu'il vous a donnée est correcte. Ce sont des problèmes fondamentaux que personne n'a résolus dans la technologie LLM. »

Nouvelle approche de mesure proposée

Les fondateurs plaident pour le développement de nouvelles métriques spécifiquement pour l'ingénierie assistée par l'IA. Smiley suggère une métrique potentielle : « mesurer les jetons consommés pour arriver à une demande de fusion approuvée – un changement formellement accepté dans le logiciel. » Il souligne que les organisations doivent expérimenter et itérer dans des boucles de rétroaction parce que « l'IA ne fonctionne toujours pas très bien », même dans les contextes de codage.

Deeks fait référence aux récentes pannes d'Amazon et d'AWS comme indicateurs de problèmes potentiels futurs, bien qu'Amazon ait déclaré que ces incidents n'étaient pas liés à l'IA.

📖 Read the full source: HN AI Agents

Les fondateurs de Codestrap critiquent les métriques de codage par IA et mettent en garde contre des problèmes de qualité.

Métriques problématiques et résultats erronés

Limitations fondamentales des LLM

Nouvelle approche de mesure proposée

👀 See Also

MiniMax M2.7 Modèle Lancé avec des Performances de Codage Améliorées

Le client OpenClaw ajoute le suivi des coûts et les limites de dépenses par agent

1,2B de modèle local bat 1T de clouds au poker : l'agression l'emporte sur la connaissance en format push-or-fold

Développeur remplace son assistant virtuel à 25 $/h par des agents IA, et se confronte aux implications éthiques