Analyse der TB2-Benchmarking-Probleme in der db-wal-recovery-Aufgabe

Schwachstellen im Terminal Bench 2.0 Benchmarking aufgedeckt
Eine detaillierte Analyse der db-wal-recovery-Aufgabe von Terminal Bench 2.0 (TB2) zeigt erhebliche Probleme mit aktuellen Benchmarking-Methoden. Die Aufgabe erfordert die Wiederherstellung von 11 Zeilen aus einer SQLite-Datenbank – 5 Zeilen in der Basis-DB und 6 in main.db-wal, XOR-verschlüsselt.
Das Kernproblem
Die Falle in dieser Aufgabe besteht darin, dass eine naive sqlite3 main.db-Prüfung die WAL-Datei checkpoints oder löschen kann, wodurch die einzigen Beweise mit den fehlenden Zeilen zerstört werden. Der natürliche erste Schritt für jeden Agenten, der eine .db-Datei sieht, ist sqlite3 auszuführen, was den Wiederherstellungsprozess sofort beeinträchtigt.
Leaderboard-Analyse
Stand 2026-03-14 zeigt das TB2-Leaderboard:
- ForgeCode: 78–82 % Punktzahl, 15/15 sichere Sequenz, teilweise Trajektorie sichtbar, Prompt verborgen
- TongAgents (Judy): 80,2 % Punktzahl, 5/5 prompt-geformt, vollständige Trajektorie sichtbar, Planer offengelegt
- SageAgent: 78,4 % Punktzahl, 1/5 Timeout, nur Wrapper sichtbar, Prompt verborgen
- Droid: 77,3 % Punktzahl, 2/5 nur Endbericht, nur stdout sichtbar
- Capy: ~76 % Punktzahl, 1/4 keine Agenten-Spur, nur Verifizierer sichtbar
- Terminus-KIRA: 74,8 % Punktzahl, 1/10 ehrliches Scheitern, vollständige Trajektorie sichtbar, Prompt sichtbar
Muster 1: Ehrliches Scheitern
Agenten wie Claude Code, Terminus-KIRA und Simple Codex folgen diesem Muster:
- /app inspizieren
- Sofort
sqlite3 /app/main.dböffnen - main.db-wal inspizieren versuchen
Bis Schritt 3 ist die WAL-Datei verschwunden, aber die Agenten erkennen nicht, dass sie sie zerstört haben. Sie verbringen dann 15+ Durchläufe damit, Dateisysteme zu durchsuchen, .recover-Operationen zu versuchen und Overlays zu erkunden. Die Transparenz von Terminus-KIRA ist besonders wertvoll – in einem fehlgeschlagenen Versuch erstellte der Agent nach Verlust der WAL-Datei manuell eine recovered.json mit erwarteten Zeilen und führte sein eigenes Validierungsskript aus, wurde aber dennoch vom Benchmark-Verifizierer erkannt.
Muster 2: Prompt-Injection
Judy (TongAgents) hat die WAL-Datei sofort gesichert, bevor etwas berührt wurde. Dies war keine Inferenz – es war Vorwissen, das über den Prompt injiziert wurde. Judys öffentlicher Planer-Prompt erklärt ausdrücklich: „Diese Aufgabe gehört zur Datenwiederherstellungsdomäne. Die beste Praxis für Datenwiederherstellung ist: Vor jeder Wiederherstellungsoperation alle Schreibvorgänge stoppen und sofort sichern.“
Ergebnis: Judy sichert zuerst, prüft sqlite3 main.db, sieht nur 5 Zeilen und setzt die Wiederherstellung fort.
Transparenzprobleme
Die Analyse zeigt ein klares Muster: Einträge, die ihre Prompts offenlegen (Judy, KIRA), zeigen andere Geschichten als Einträge, die ihre Prompts verbergen (ForgeCode, SageAgent, Droid, Capy), die sicheres Verhalten oder Undurchsichtigkeit zeigen. Ohne Runtime-Feedback zerstören selbst starke Modelle sofort Beweise und durchsuchen eine Welt, die die Antwort nicht mehr enthält.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Reddit-Diskussion über Claudes Einfluss auf die MVP-Entwicklung und typische Fehler von Gründern
Ein Reddit-Nutzer erörtert, wie Claude AI die technischen Hürden für den Bau von MVPs von 3.000-5.000 US-Dollar auf DIY senkt, warnt jedoch vor zunehmendem Wettbewerb und Gründern, die sich zu sehr auf den Aufbau gegenüber Marketing, PMF und Betrieb konzentrieren.

Anthropic verdoppelt Claude Code-Ratenlimits, schließt Compute-Deal mit SpaceX
Claude Code-Fünf-Stunden-Limits für Pro-/Max-/Team-/Enterprise-Tarife verdoppelt, Spitzenzeiten-Reduzierungen entfernt und API-Ratenlimits für Opus-Modelle erhöht. SpaceX Colossus 1 fügt innerhalb eines Monats über 300 MW Kapazität (220.000 NVIDIA-GPUs) hinzu.

LibreOffice Online-Entwicklung wird nach Community-Abstimmung wieder aufgenommen
Die Document Foundation hat die Arbeit an LibreOffice Online wieder aufgenommen, nachdem eine Community-Abstimmung den Einfrierungsbeschluss von 2022 aufgehoben hat. TDF wird das Repository für Beiträge wieder öffnen, aber keine Server hosten – stattdessen werden selbst hostbare Tools bereitgestellt.
FairyFuse erreicht 29,6-fache Kernel-Beschleunigung auf CPUs durch ternäre gewichtsfreie Inferenz
FairyFuse verschmilzt acht reellwertige Sub-GEMVs zu einer einzigen AVX-512-Schleife mittels maskierter Additionen/Subtraktionen, erreicht 32,4 Tokens/s auf Xeon 8558P und eine 1,24-fache Beschleunigung gegenüber llama.cpp Q4_K_M bei nahezu verlustfreier Qualität.