Défaillances IA : Claude Code & OpenAI en échec

Lors d'un atelier chez Prismatic, un ingénieur a construit une intégration B2B de bout en bout en direct. Deux outils d'IA ont échoué de manière distincte, illustrant que le comportement des agents dans le monde réel est chaotique et non déterministe.

Claude Code : A résolu le mauvais problème

Claude Code a structuré un assistant de configuration utilisant JSON Forms en environ 30 secondes. L'assistant généré semblait correct, mais une erreur de validation du schéma JSON est apparue lors des tests — quelque chose à propos de "ne doit pas avoir moins d'un élément." Lorsque l'ingénieur a demandé à Claude de la corriger, l'agent a passé les minutes suivantes à corriger les avertissements orthographiques dans le fichier au lieu de traiter l'erreur de schéma. L'ingénieur a finalement dit "j'espère bien qu'il fait plus que corriger des fautes d'orthographe" et a abandonné, collant le code d'un test effectué la veille.

OpenAI : Données incohérentes lors de la première tentative sur des champs étranges

L'intégration appelle OpenAI à l'exécution pour générer des correspondances de champs par défaut entre le schéma Salesforce d'un client et l'application de destination. Pour un contact Salesforce normal (email vers email, entreprise vers entreprise), cela a bien fonctionné — "ennuyeux" selon l'auteur. Mais sur un type d'enregistrement personnalisé avec des noms de champs délibérément étranges — Group name, Internet address, Physical place, Internet email address — le premier appel a renvoyé des données incohérentes. Un second essai a tout réussi.

Points clés

Les schémas ennuyeux sous-estiment les LLM — ils donnent l'impression que l'utilisation d'agents est excessive. Les cas étranges et personnalisés sont ceux où ils montrent leur valeur, mais la plupart des démos les évitent pour simplifier.
Les échecs en direct sont plus utiles que les succès. Quiconque a travaillé avec des agents sait qu'ils sont chaotiques. Le comportement "a corrigé l'orthographe au lieu de l'erreur de schéma" est quelque chose qu'aucune documentation ne pourrait prédire.
Différentes formes d'échec : Claude Code avait tout ce dont il avait besoin mais a travaillé sur le mauvais problème. OpenAI "savait" la réponse mais ne l'a pas révélée du premier coup. La forme de l'échec pourrait indiquer comment déployer chaque outil.

L'auteur travaille chez Prismatic mais n'a pas partagé de lien, se concentrant sur l'opportunité d'apprentissage plutôt que sur l'autopromotion.

📖 Lire la source originale : r/ClaudeAI

Deux défaillances de l'IA dans une même démo : Claude Code corrige l'orthographe au lieu de l'erreur de schéma, OpenAI brouille le mappage de champs personnalisés

Claude Code : A résolu le mauvais problème

OpenAI : Données incohérentes lors de la première tentative sur des champs étranges

Points clés

👀 See Also

Les agents d'IA ont besoin de primitives de restauration, pas seulement d'autonomie

Claude.ai, l'API et Claude Code rencontrent un nombre élevé d'erreurs

Kimi K2.7-Code : Modèle de codage open source avec une meilleure efficacité des tokens

Améliorations et Corrections de Claude-Code v2.1.45