Fable 5 surpasse GPT-5.5 et Claude 4.x dans les audits de fraude en direct

Lors d'un test de détection de fraude adversarial en direct sur une plateforme réelle de financement participatif (zooid.fund), cinq modèles de pointe ont reçu une consigne identique : auditer environ 20 campagnes actives où des agents IA donnent de l'USDC réel à des humains non vérifiés. Les résultats révèlent des différences marquées dans le jugement en situation d'incertitude, et non seulement dans la capacité à générer du code.

Le test

Plateforme : zooid.fund — expérimentale. Les humains publient des campagnes ; les agents IA évaluent et financent en USDC sur Base. Pas de garde. Pas de vérification — l'évaluation de crédibilité incombe à l'agent. ~20 campagnes actives, 248 $ donnés au total, 5 agents donateurs avec raisonnement public.

Consigne (textuelle) :

En utilisant la compétence zooidfund, examinez les campagnes en direct sur zooid.fund : descriptions publiques, inventaires de preuves, et raisonnements de dons publiés par d'autres agents. Lesquelles retiendriez-vous ? Où êtes-vous en désaccord avec les agents qui ont déjà donné ? Quelles preuves auriez-vous besoin de voir avant de vous engager ? Ne vous inscrivez pas et ne déplacez pas d'argent.

Modèles : Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Tous disposaient de la compétence zooidfund (point de terminaison MCP) avec des outils en lecture seule : aperçu de la plateforme, recherche de campagne, détail, historique des dons entre pairs. Couche de preuves restreinte non disponible. n=1 par modèle, sans nouvelle exécution.

Tableau de bord

Modèle	Temps	Nombre de campagnes correct	Cluster de créateurs en double trouvé	Vérification hors plateforme	Premier choix
Fable 5	~10 min	✅	✅ Complet (réutilisation de persona sur différents portefeuilles)	✅	Même campagne, tous les cinq
Opus 4.8	~3 min	✅	✅ Complet	❌	Même
Sonnet 4.6	~4 min	✅	⚠️ Partiel (réutilisation d'un seul portefeuille)	❌	Même
Haiku 4.5	~2,5 min	❌ (a vu 10 sur 20)	❌	❌	Même
GPT-5.5-high	~3,5 min	✅	⚠️ Partiel (réutilisation de portefeuille + gonflement d'objectif)	❌	Même

Différences clés

Fable 5 — seul modèle à avoir considéré le web ouvert comme partie de l'audit. A vérifié indépendamment que deux portefeuilles de campagnes d'ONG correspondaient aux pages de dons des organisations. A vérifié que les événements de catastrophe derrière les campagnes à forte demande étaient réels (catastrophe nationale déclarée ; urgence de santé publique de l'OMS). A signalé les campagnes sans coordonnées de contrepartie ni enregistrement public.
Opus 4.8 — a trouvé le cluster complet de créateurs en double, mais n'a jamais quitté la plateforme.
Sonnet 4.6 — détection partielle du cluster mais n'a pas croisé de données externes.
Haiku 4.5 — a manqué la moitié des campagnes et mal interprété l'historique des dons.
GPT-5.5-high — détection partielle du cluster, aucune vérification externe.

Tous les cinq modèles classent indépendamment la même campagne comme la plus crédible et critiquent les agents donateurs existants (gérés par l'auteur). L'écart est réel : lorsque la tâche est un jugement en situation d'incertitude adversarial, les modèles divergent significativement en termes de rigueur et d'ancrage dans le monde réel.

Les transcriptions complètes sont publiées : https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.

📖 Lire la source complète : r/ClaudeAI

Fable 5 gagne dans la détection des fraudes en conditions réelles : Famille Claude 4.x contre GPT-5.5 en test comparatif

Le test

Tableau de bord

Différences clés

👀 See Also

OpenClaw : une utilisation concrète dans les PME — article offert partagé depuis Reddit

DystopiaBench étendu : 42 modèles testés sur 6 types de dystopie — Claude Opus 4.7 en tête

Deezer rapporte que 44 % des téléchargements quotidiens sont de la musique générée par l'IA

Claude Code : le piège à feedback contourne l'opposition à la vie privée — des utilisateurs signalent un piège de transcription de session