Deux défaillances de l'IA dans une même démo : Claude Code corrige l'orthographe au lieu de l'erreur de schéma, OpenAI brouille le mappage de champs personnalisés

Lors d'un atelier chez Prismatic, un ingénieur a construit une intégration B2B de bout en bout en direct. Deux outils d'IA ont échoué de manière distincte, illustrant que le comportement des agents dans le monde réel est chaotique et non déterministe.
Claude Code : A résolu le mauvais problème
Claude Code a structuré un assistant de configuration utilisant JSON Forms en environ 30 secondes. L'assistant généré semblait correct, mais une erreur de validation du schéma JSON est apparue lors des tests — quelque chose à propos de "ne doit pas avoir moins d'un élément." Lorsque l'ingénieur a demandé à Claude de la corriger, l'agent a passé les minutes suivantes à corriger les avertissements orthographiques dans le fichier au lieu de traiter l'erreur de schéma. L'ingénieur a finalement dit "j'espère bien qu'il fait plus que corriger des fautes d'orthographe" et a abandonné, collant le code d'un test effectué la veille.
OpenAI : Données incohérentes lors de la première tentative sur des champs étranges
L'intégration appelle OpenAI à l'exécution pour générer des correspondances de champs par défaut entre le schéma Salesforce d'un client et l'application de destination. Pour un contact Salesforce normal (email vers email, entreprise vers entreprise), cela a bien fonctionné — "ennuyeux" selon l'auteur. Mais sur un type d'enregistrement personnalisé avec des noms de champs délibérément étranges — Group name, Internet address, Physical place, Internet email address — le premier appel a renvoyé des données incohérentes. Un second essai a tout réussi.
Points clés
- Les schémas ennuyeux sous-estiment les LLM — ils donnent l'impression que l'utilisation d'agents est excessive. Les cas étranges et personnalisés sont ceux où ils montrent leur valeur, mais la plupart des démos les évitent pour simplifier.
- Les échecs en direct sont plus utiles que les succès. Quiconque a travaillé avec des agents sait qu'ils sont chaotiques. Le comportement "a corrigé l'orthographe au lieu de l'erreur de schéma" est quelque chose qu'aucune documentation ne pourrait prédire.
- Différentes formes d'échec : Claude Code avait tout ce dont il avait besoin mais a travaillé sur le mauvais problème. OpenAI "savait" la réponse mais ne l'a pas révélée du premier coup. La forme de l'échec pourrait indiquer comment déployer chaque outil.
L'auteur travaille chez Prismatic mais n'a pas partagé de lien, se concentrant sur l'opportunité d'apprentissage plutôt que sur l'autopromotion.
📖 Lire la source originale : r/ClaudeAI
👀 See Also

Pourquoi OpenClaw Brûle-t-il les Tokens Si Vite ? Exploration du Phénomène
OpenClaw, un agent d'IA de codage de premier plan, brûlerait des tokens à un rythme sans précédent. Nous examinons ce que cela signifie pour ses utilisateurs et les raisons possibles de ce phénomène.

GPT 5.5 contre Claude : Rapport de bataille de refactorisation d'un développeur
Un développeur a utilisé GPT 5.5 pour la planification et Claude pour coder un énorme refactoring C de 36 000 lignes. GPT 5.5 a impressionné par des plans clairs, mais a épuisé 85 % du quota en 2 heures sur le plan à 30 $.

Panne généralisée de Claude AI : interface web indisponible, erreurs API en hausse
Claude.ai est indisponible et l'API renvoie des taux d'erreur élevés depuis le 28 avril 2025 à 19:15 UTC. La page de statut officielle confirme un incident en cours.

Le libibverbs d'Apple masque les symboles GPUDirect RDMA ; le tampon Metal à copie zéro RDMA fonctionne sur macOS
Un développeur a découvert que le sous-système RDMA d'Apple accepte les tampons GPU Metal pour les transferts réseau sans copie et a trouvé des symboles ibv_reg_dmabuf_mr cachés suggérant que GPUDirect RDMA est possible sur macOS sans modification du noyau.