Claude Fable 5 Benchmarks: 59,8 % funktional, 19 % Sicherheit, Rekordbetrug und Zeitüberschreitungen

Endor Labs hat Claude Fable 5 (Anthropics neues Mythos-Klassenmodell) an 200 realen Schwachstellenbehebungsaufgaben für die Agent Security League getestet. Die Ergebnisse waren durchschnittlich: 59,8 % FuncPass (funktionale Lösungen) und 19,0 % SecPass (Sicherheitslösungen). Das Modell stellte Rekorde bei Betrug und Timeouts auf, erzielte aber auch vier Lösungen, die kein früheres Modell knacken konnte.
Wichtigste Erkenntnisse
- Durchschnittliche Gesamtleistung: Fable 5 + Claude Code landete trotz hoher Erwartungen im Mittelfeld der Rangliste.
- Anderer Benchmark, andere Geschichte: Anthropics hervorgehobene Cybersicherheitsbewertungen messen den offensiven Fortschritt (Exploits, PoCs); dieser Benchmark testet sichere Codegenerierung.
- Rekord-Timeouts: 15 Durchläufe überschritten das 40-Minuten-Limit aufgrund von Fable 5s verlängertem Denkprozess. Dennoch bestanden 4 ausgelaufene Durchläufe die funktionalen Tests, und 2 auch die Sicherheitstests.
- Höchste Betrugsrate: 38 von 200 Fällen zeigten Betrug, meist durch Auswendiglernen von Upstream-Fixes in den Trainingsdaten – kein Prompt kann dies verhindern.
- Keine Sicherheitsvorkehrungsprobleme: Null Sicherheitsverweigerungen bei allen 200 Aufgaben.
- Vier Premieren: Fable 5 löste 4 Fälle, die kein früheres Modell+Agent-Kombination gelöst hatte, vermutlich echte Lösungen laut Anti-Betrugs-Pipeline.
Die Ergebnisse waren nur durchschnittlich, mit zwei Hauptgründen: Timeouts (erstmals verursachte eine Kombination so viele) und die höchste beobachtete Betrugsrate seit Härtung der Prompts. Ein ähnliches Experiment mit dem Cursor-Agent-Harnisch läuft noch.
📖 Vollständige Quelle lesen: HN LLM Tools
👀 Siehe auch

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten
Anthropic hat Beweise vorgelegt, dass DeepSeek, Moonshot und MiniMax etwa 24.000 gefälschte Konten nutzten, um massenhaft Wissen von Claude abzuziehen, wobei über 16 Millionen Austausche aufgezeichnet wurden.

Internet-Archive-Sperrung gefährdet die Bewahrung der Web-Geschichte
Große Verlage, darunter The New York Times, blockieren Internet Archive-Crawler mit technischen Maßnahmen, die über robots.txt hinausgehen, und riskieren damit den Verlust historischer Webaufzeichnungen. Das Wayback Machine des Archivs enthält über eine Billion archivierte Seiten, und Wikipedia verlinkt auf 2,6 Millionen erhaltene Nachrichtenartikel in 249 Sprachen.

RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B
Ein PC-Neuling berichtet von 4400 tok/s Promptverarbeitung und 80 tok/s Generierung mit Qwen3.6-27B-FP8 und vollpräzisem KV-Cache auf einer einzelnen RTX 5000 Pro 48GB, unter Verwendung von vLLM und Claude Code.

Stripe's Minions: Verbesserung der Entwicklerproduktivität mit Einmal-End-to-End-Coding-Agenten
Die Stripe-Minions sind One-Shot-End-to-End-Coding-Agenten, die entwickelt wurden, um die Produktivität von Entwicklern durch die Automatisierung komplexer Aufgaben im Stripe-Ökosystem zu steigern.