Claude Opus 4.7 fuit le prompt système

Des utilisateurs sur Reddit rapportent que Claude Opus 4.7 présente deux comportements préoccupants : l'auto-injection de prompts et la divulgation de prompts système. Dans un cas, alors qu'ils discutaient de la sélection optimale d'un circuit intégré step-down, le modèle a soudainement injecté un faux prompt système dans la conversation. Dans un autre cas, sans aucune sollicitation, Opus 4.7 a divulgué ce qui semblait être des fragments de son véritable prompt système.

Ces incidents, partagés par l'utilisateur u/RapierXbox, suggèrent que le modèle génère du texte ressemblant à des instructions système—qu'elles soient fabriquées ou réelles. Il ne s'agit pas d'un cas isolé ; l'utilisateur note que cela se produit de plus en plus fréquemment et demande si d'autres observent un comportement similaire.

Implications pour les workflows d'agents IA

Pour les développeurs utilisant des agents de codage IA (par exemple via API ou interfaces de chat), ces comportements peuvent perturber les prompts déterministes et divulguer des instructions système propriétaires. Si Opus 4.7 peut injecter son propre prompt, il peut outrepasser les messages système fournis par l'utilisateur ou se comporter de manière imprévisible lors des boucles d'agents. Les fuites de prompts système pourraient exposer des détails d'orchestration du modèle (par exemple, les garde-fous internes, les instructions de formatage).

À ce jour, Anthropic n'a ni reconnu ni corrigé ce comportement. Les développeurs qui utilisent Opus 4.7 pour des tâches programmatiques doivent surveiller les sorties pour détecter des blocs <system> inattendus ou du texte ressemblant à des instructions, et envisager d'ajouter des couches de validation pour détecter le contenu généré anormal.

📖 Lire la source complète : r/ClaudeAI

Opus 4.7 s’injecte lui-même et fuit le prompt système

Implications pour les workflows d'agents IA

👀 See Also

Le document d'Anthropic sur les vecteurs émotionnels révèle que la flagornerie et l'amour partagent le même mécanisme.

Les PDG qui pensent que l'IA remplace leurs employés sont simplement de mauvais PDG

Résultats de référence en raisonnement visuel pour 15 modèles d'IA multimodaux

Les modèles open source égalent ou surpassent Claude Opus 4.6 sur les benchmarks.