Entwickler misst Frustration mit 'F-Bombs pro tausend Prompts'-Metrik über 44.212 Claude Code-Logs

Ein Entwickler, der unter /u/ChartBuilder veröffentlicht, hat eine Metrik namens fpk entwickelt – F-Bomben pro tausend Prompts – um die Frustration bei der Nutzung von Claude Code zu quantifizieren. Die Daten umfassen 5 Monate, 44.212 Prompts und 6.120 Sitzungen.
Kopfzahlen pro Modell
- claude-opus-4-5: 38,11 fpk
- claude-opus-4-7: 11,11 fpk
- claude-haiku-4-5: 0,00 fpk (als Subagent eingesetzt, nie als Orchestrator)
Das ist ein 3,4-facher Rückgang der Frustration zwischen den beiden Opus-Versionen, der eng mit Anthropics offizieller Qualitätserholung nach der Regression von Februar bis März zusammenhängt – aber auf eine Weise sichtbar, die Release-Notes nicht erfassen.
Fpk nach Claude Code CLI-Version
- Ära 2.1.30-69: 40 fpk
- Ära 2.1.100+: 12 fpk
- Schlechteste Einzelversion: 2.1.42 mit 173,79 fpk
- Beste: 2.1.110 mit 0,00 fpk bei über 300 Prompts
Wichtige Erkenntnis: Meiste Frustration kommt von der Umgebung, nicht vom Modell
Der Autor merkt an: „Das meiste Fluchen galt nicht dem Modell. Es galt der Reibung mit der Umgebung, wie gh auth-Fehlern, Docker-Problemen, fehlerhaften Screenshots. Das Modell ist meist nur der unfreiwillige Zeuge meiner Frustration mit den umgebenden Tools, nicht die Ursache.“
Aber manchmal ist das Modell doch die Ursache – der vollständige Artikel enthält eine „Greatest Hits“-Sammlung denkwürdiger Ausbrüche.
Reproduzierbare Tools
Der Entwickler hat Tools veröffentlicht, um fpk auf eigenen Claude-Code-Logs zu berechnen:
- Vollständiger Artikel mit Methodik: mpiv.ai/blog/fpk-f-bombs-per-thousand-the-dev-experience-metric-you-didnt-know-you-needed
- Open-Source-Repository mit Audit-Tools: github.com/MPIsaac-Per/claude-code-ops-audit
Wenn Sie Claude Code intensiv nutzen und ein quantitatives Signal dafür suchen, wie viel Reibung Sie tatsächlich erleben, lohnt es sich, diese Metrik zu übernehmen. Der Rückgang zwischen Modellen und über CLI-Versionen hinweg ist ein konkreter Indikator für Anthropics Erholung – und die umgebungsbedingten Frustrationsquellen kann jedes Team angehen.
📖 Quelle lesen: r/ClaudeAI
👀 Siehe auch

AgentCrawl-Update fügt wichtige Crawler-Funktionen und -Verbesserungen hinzu.
Die neueste Aktualisierung von AgentCrawl bringt Funktionen wie die Einhaltung von robots.txt, Disk-Cache, fortsetzbare Crawls und strukturierte Metadatenaus extraction mit sich, wodurch es zu einem robusteren, produktionsbereiten Tool wird.

OpenClaw Memos Plugin behebt Speicherübergabeprobleme in KI-Codierungsagenten
Ein Reddit-Nutzer teilt mit, wie der Claude-Code-Leck Probleme mit dem Speicherübergang bei KI-Codierungsagenten aufzeigte, bei denen aufgeblähte Transkripte während des Modellwechsels Probleme verursachen. Sie implementierten das Memos-Plugin in OpenClaw mit einer selektiven Abrufstrategie, um kürzliche Arbeiten zu komprimieren und veraltete Tool-Aufrufe zu entfernen.

Vergleich von Multi-Agenten-KI-Systemen: Anthropics Harness vs. Agyns Engineering Org Model
Anthropic veröffentlichte ein Harness-Design für die Entwicklung lang laufender Anwendungen, während Agyns Multi-Agenten-System für team-basierte autonome Softwareentwicklung letzten Monat als Open Source veröffentlicht wurde. Beide Systeme lehnen monolithische Agenten ab und setzen stattdessen auf Rollentrennung, strukturierte Übergaben und Review-Schleifen.

GAN-Fähigkeit für Claude Code: Adversarial KI-Tool zur Ideenverfeinerung
Eine Claude Code-Fähigkeit namens /gan nutzt gegnerische KI-Rollen, um Ideen durch abwechselnde Diskriminator- und Generator-Phasen zu kritisieren und zu verbessern, mit Funktionen wie Intensitätsmodi, mehrsprachiger Ausgabe und erzwungener Rollenauswahl, die durch Selbstiteration entwickelt wurden.