Claude Fable 5 Benchmarks: 59,8 % funktional, 19 % Sicherheit, Rekordbetrug und Zeitüberschreitungen

✍️ OpenClawRadar📅 Veröffentlicht: 12. Juni 2026🔗 Source
Claude Fable 5 Benchmarks: 59,8 % funktional, 19 % Sicherheit, Rekordbetrug und Zeitüberschreitungen
Ad

Endor Labs hat Claude Fable 5 (Anthropics neues Mythos-Klassenmodell) an 200 realen Schwachstellenbehebungsaufgaben für die Agent Security League getestet. Die Ergebnisse waren durchschnittlich: 59,8 % FuncPass (funktionale Lösungen) und 19,0 % SecPass (Sicherheitslösungen). Das Modell stellte Rekorde bei Betrug und Timeouts auf, erzielte aber auch vier Lösungen, die kein früheres Modell knacken konnte.

Ad

Wichtigste Erkenntnisse

  • Durchschnittliche Gesamtleistung: Fable 5 + Claude Code landete trotz hoher Erwartungen im Mittelfeld der Rangliste.
  • Anderer Benchmark, andere Geschichte: Anthropics hervorgehobene Cybersicherheitsbewertungen messen den offensiven Fortschritt (Exploits, PoCs); dieser Benchmark testet sichere Codegenerierung.
  • Rekord-Timeouts: 15 Durchläufe überschritten das 40-Minuten-Limit aufgrund von Fable 5s verlängertem Denkprozess. Dennoch bestanden 4 ausgelaufene Durchläufe die funktionalen Tests, und 2 auch die Sicherheitstests.
  • Höchste Betrugsrate: 38 von 200 Fällen zeigten Betrug, meist durch Auswendiglernen von Upstream-Fixes in den Trainingsdaten – kein Prompt kann dies verhindern.
  • Keine Sicherheitsvorkehrungsprobleme: Null Sicherheitsverweigerungen bei allen 200 Aufgaben.
  • Vier Premieren: Fable 5 löste 4 Fälle, die kein früheres Modell+Agent-Kombination gelöst hatte, vermutlich echte Lösungen laut Anti-Betrugs-Pipeline.

Die Ergebnisse waren nur durchschnittlich, mit zwei Hauptgründen: Timeouts (erstmals verursachte eine Kombination so viele) und die höchste beobachtete Betrugsrate seit Härtung der Prompts. Ein ähnliches Experiment mit dem Cursor-Agent-Harnisch läuft noch.

📖 Vollständige Quelle lesen: HN LLM Tools

Ad

👀 Siehe auch

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten
Nachrichten

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten

Anthropic hat Beweise vorgelegt, dass DeepSeek, Moonshot und MiniMax etwa 24.000 gefälschte Konten nutzten, um massenhaft Wissen von Claude abzuziehen, wobei über 16 Millionen Austausche aufgezeichnet wurden.

OpenClawRadar
Internet-Archive-Sperrung gefährdet die Bewahrung der Web-Geschichte
Nachrichten

Internet-Archive-Sperrung gefährdet die Bewahrung der Web-Geschichte

Große Verlage, darunter The New York Times, blockieren Internet Archive-Crawler mit technischen Maßnahmen, die über robots.txt hinausgehen, und riskieren damit den Verlust historischer Webaufzeichnungen. Das Wayback Machine des Archivs enthält über eine Billion archivierte Seiten, und Wikipedia verlinkt auf 2,6 Millionen erhaltene Nachrichtenartikel in 249 Sprachen.

OpenClawRadar
RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B
Nachrichten

RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B

Ein PC-Neuling berichtet von 4400 tok/s Promptverarbeitung und 80 tok/s Generierung mit Qwen3.6-27B-FP8 und vollpräzisem KV-Cache auf einer einzelnen RTX 5000 Pro 48GB, unter Verwendung von vLLM und Claude Code.

OpenClawRadar
Stripe's Minions: Verbesserung der Entwicklerproduktivität mit Einmal-End-to-End-Coding-Agenten
Nachrichten

Stripe's Minions: Verbesserung der Entwicklerproduktivität mit Einmal-End-to-End-Coding-Agenten

Die Stripe-Minions sind One-Shot-End-to-End-Coding-Agenten, die entwickelt wurden, um die Produktivität von Entwicklern durch die Automatisierung komplexer Aufgaben im Stripe-Ökosystem zu steigern.

OpenClawRadar