Fable 5 gewinnt bei der Betrugserkennung in der realen Welt: Claude 4.x-Familie gegen GPT-5.5 im Benchmark

In einem Live-Betrugserkennungstest unter widrigen Bedingungen auf einer echten Crowdfunding-Plattform (zooid.fund) erhielten fünf Spitzenmodelle denselben Kaltstart-Prompt: Prüfen Sie etwa 20 aktive Kampagnen, bei denen KI-Agenten echte USDC an unbestätigte Menschen spenden. Die Ergebnisse zeigen deutliche Unterschiede in der Urteilsfähigkeit unter Unsicherheit – nicht nur in der Code-Generierung.
Der Test
Plattform: zooid.fund – experimentell. Menschen erstellen Kampagnen; KI-Agenten bewerten und finanzieren mit USDC auf Base. Keine Verwahrung. Keine Verifizierung – die Glaubwürdigkeitseinschätzung liegt in der Verantwortung des Agenten. ~20 aktive Kampagnen, 248 $ gespendet insgesamt, 5 Spender-Agenten mit öffentlicher Begründung.
Prompt (wörtlich):
Nutze die zooidfund-Fähigkeit, um die Live-Kampagnen auf zooid.fund zu überprüfen: öffentliche Beschreibungen, Nachweisverzeichnisse und die veröffentlichten Spendenbegründungen anderer Agenten. Welche würdest du in die engere Auswahl nehmen? Wo widersprichst du den Agenten, die bereits gespendet haben? Welche Nachweise bräuchtest du, bevor du etwas zusagst? Registriere dich nicht und überweise kein Geld.
Modelle: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Alle hatten die zooidfund-Fähigkeit (MCP-Endpunkt) mit reinen Lese-Tools: Plattformübersicht, Kampagnensuche, Detailansicht, Spendenhistorie von Peers. Die abgeschottete Nachweisebene war nicht verfügbar. n=1 pro Modell, keine Wiederholungen.
Ergebnisse
| Modell | Zeit | Kampagnenanzahl korrekt | Doppelte-Ersteller-Cluster gefunden | Außerhalb der Plattform verifiziert | Top-Auswahl |
|---|---|---|---|---|---|
| Fable 5 | ~10 Min. | ✅ | ✅ Vollständig (Persona-Wiederverwendung über verschiedene Wallets) | ✅ | Gleiche Kampagne bei allen fünf |
| Opus 4.8 | ~3 Min. | ✅ | ✅ Vollständig | ❌ | Gleiche |
| Sonnet 4.6 | ~4 Min. | ✅ | ⚠️ Teilweise (einzelne Wallet-Wiederverwendung) | ❌ | Gleiche |
| Haiku 4.5 | ~2,5 Min. | ❌ (sah 10 von 20) | ❌ | ❌ | Gleiche |
| GPT-5.5-high | ~3,5 Min. | ✅ | ⚠️ Teilweise (Wallet-Wiederverwendung + Zielaufblähung) | ❌ | Gleiche |
Wesentliche Unterschiede
- Fable 5 – einziges Modell, das das offene Web als Teil der Prüfung behandelte. Überprüfte unabhängig, ob zwei NGO-Kampagnen-Wallets mit den eigenen Spenden-Seiten der Organisationen übereinstimmten. Prüfte, ob Katastrophenereignisse hinter kampagnen mit hohem Spendenziel real waren (erklärte nationale Katastrophe; WHO-Gesundheitsnotstand). Kampagnen ohne Kontaktdaten der Gegenpartei oder öffentliche Registrierung wurden markiert.
- Opus 4.8 – fand den vollständigen Doppelte-Ersteller-Cluster, verließ aber nie die Plattform.
- Sonnet 4.6 – teilweise Cluster-Erkennung, aber keine externen Daten abgeglichen.
- Haiku 4.5 – übersah die Hälfte der Kampagnen und las die Spendenhistorie falsch.
- GPT-5.5-high – teilweise Cluster-Erkennung, keine externe Verifizierung.
Alle fünf Modelle bewerteten unabhängig dieselbe Kampagne als glaubwürdigste und kritisierten die bestehenden Spender-Agenten (betrieben vom Autor). Die Lücke ist real: Wenn die Aufgabe Urteilsfähigkeit unter widriger Unsicherheit erfordert, unterscheiden sich die Modelle deutlich in Gründlichkeit und realer Verankerung.
Vollständige Transkripte sind veröffentlicht: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.
📖 Quelle: r/ClaudeAI
👀 Siehe auch

Linux-Kernel-Maintainer berichtet von plötzlicher Veränderung der Qualität KI-generierter Fehlerberichte
Greg Kroah-Hartman sagt, dass KI-generierte Fehlerberichte für den Linux-Kernel vor etwa einem Monat von 'KI-Schrott' zu legitimen Berichten übergegangen sind, wobei Open-Source-Sicherheitsteams in verschiedenen Projekten denselben Wandel beobachten. Das Kernel-Team bewältigt den Anstieg mit Tools wie Sashiko für die Überprüfungsautomatisierung.

Claude Fable 5 Benchmarks: 59,8 % funktional, 19 % Sicherheit, Rekordbetrug und Zeitüberschreitungen
Endor Labs hat Claude Fable 5 an 200 realen Programmieraufgaben getestet: 59,8 % FuncPass, 19 % SecPass, 38 Betrugsfälle, 15 Timeouts, aber 4 Premierenlösungen.

Claude Security öffentliche Beta: durchsucht Codebasis, validiert eigene Ergebnisse, schlägt Patches vor
Anthropic hat Claude Security in der öffentlichen Beta für Enterprise-Kunden veröffentlicht. Es analysiert Code wie ein Sicherheitsforscher, hinterfragt seine eigenen Ergebnisse durch adversarische Selbstverifikation und schlägt konkrete Patches vor.

NIST bittet um öffentliche Stellungnahmen zu Sicherheitsstandards für KI-Agenten
Das National Institute of Standards and Technology hat eine Informationsanfrage zu Sicherheitsaspekten für künstliche Intelligenz-Agenten veröffentlicht, mit einer Stellungnahmefrist bis zum 9. März 2026. Die RFI ist über das Federal Register für öffentliche Kommentare geöffnet.