Analyse der TB2-Benchmarking-Probleme in der db-wal-recovery-Aufgabe

✍️ OpenClawRadar📅 Veröffentlicht: 17. März 2026🔗 Source
Analyse der TB2-Benchmarking-Probleme in der db-wal-recovery-Aufgabe
Ad

Schwachstellen im Terminal Bench 2.0 Benchmarking aufgedeckt

Eine detaillierte Analyse der db-wal-recovery-Aufgabe von Terminal Bench 2.0 (TB2) zeigt erhebliche Probleme mit aktuellen Benchmarking-Methoden. Die Aufgabe erfordert die Wiederherstellung von 11 Zeilen aus einer SQLite-Datenbank – 5 Zeilen in der Basis-DB und 6 in main.db-wal, XOR-verschlüsselt.

Das Kernproblem

Die Falle in dieser Aufgabe besteht darin, dass eine naive sqlite3 main.db-Prüfung die WAL-Datei checkpoints oder löschen kann, wodurch die einzigen Beweise mit den fehlenden Zeilen zerstört werden. Der natürliche erste Schritt für jeden Agenten, der eine .db-Datei sieht, ist sqlite3 auszuführen, was den Wiederherstellungsprozess sofort beeinträchtigt.

Leaderboard-Analyse

Stand 2026-03-14 zeigt das TB2-Leaderboard:

  • ForgeCode: 78–82 % Punktzahl, 15/15 sichere Sequenz, teilweise Trajektorie sichtbar, Prompt verborgen
  • TongAgents (Judy): 80,2 % Punktzahl, 5/5 prompt-geformt, vollständige Trajektorie sichtbar, Planer offengelegt
  • SageAgent: 78,4 % Punktzahl, 1/5 Timeout, nur Wrapper sichtbar, Prompt verborgen
  • Droid: 77,3 % Punktzahl, 2/5 nur Endbericht, nur stdout sichtbar
  • Capy: ~76 % Punktzahl, 1/4 keine Agenten-Spur, nur Verifizierer sichtbar
  • Terminus-KIRA: 74,8 % Punktzahl, 1/10 ehrliches Scheitern, vollständige Trajektorie sichtbar, Prompt sichtbar
Ad

Muster 1: Ehrliches Scheitern

Agenten wie Claude Code, Terminus-KIRA und Simple Codex folgen diesem Muster:

  1. /app inspizieren
  2. Sofort sqlite3 /app/main.db öffnen
  3. main.db-wal inspizieren versuchen

Bis Schritt 3 ist die WAL-Datei verschwunden, aber die Agenten erkennen nicht, dass sie sie zerstört haben. Sie verbringen dann 15+ Durchläufe damit, Dateisysteme zu durchsuchen, .recover-Operationen zu versuchen und Overlays zu erkunden. Die Transparenz von Terminus-KIRA ist besonders wertvoll – in einem fehlgeschlagenen Versuch erstellte der Agent nach Verlust der WAL-Datei manuell eine recovered.json mit erwarteten Zeilen und führte sein eigenes Validierungsskript aus, wurde aber dennoch vom Benchmark-Verifizierer erkannt.

Muster 2: Prompt-Injection

Judy (TongAgents) hat die WAL-Datei sofort gesichert, bevor etwas berührt wurde. Dies war keine Inferenz – es war Vorwissen, das über den Prompt injiziert wurde. Judys öffentlicher Planer-Prompt erklärt ausdrücklich: „Diese Aufgabe gehört zur Datenwiederherstellungsdomäne. Die beste Praxis für Datenwiederherstellung ist: Vor jeder Wiederherstellungsoperation alle Schreibvorgänge stoppen und sofort sichern.“

Ergebnis: Judy sichert zuerst, prüft sqlite3 main.db, sieht nur 5 Zeilen und setzt die Wiederherstellung fort.

Transparenzprobleme

Die Analyse zeigt ein klares Muster: Einträge, die ihre Prompts offenlegen (Judy, KIRA), zeigen andere Geschichten als Einträge, die ihre Prompts verbergen (ForgeCode, SageAgent, Droid, Capy), die sicheres Verhalten oder Undurchsichtigkeit zeigen. Ohne Runtime-Feedback zerstören selbst starke Modelle sofort Beweise und durchsuchen eine Welt, die die Antwort nicht mehr enthält.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Reddit-Diskussion über Claudes Einfluss auf die MVP-Entwicklung und typische Fehler von Gründern
Nachrichten

Reddit-Diskussion über Claudes Einfluss auf die MVP-Entwicklung und typische Fehler von Gründern

Ein Reddit-Nutzer erörtert, wie Claude AI die technischen Hürden für den Bau von MVPs von 3.000-5.000 US-Dollar auf DIY senkt, warnt jedoch vor zunehmendem Wettbewerb und Gründern, die sich zu sehr auf den Aufbau gegenüber Marketing, PMF und Betrieb konzentrieren.

OpenClawRadar
Anthropic verdoppelt Claude Code-Ratenlimits, schließt Compute-Deal mit SpaceX
Nachrichten

Anthropic verdoppelt Claude Code-Ratenlimits, schließt Compute-Deal mit SpaceX

Claude Code-Fünf-Stunden-Limits für Pro-/Max-/Team-/Enterprise-Tarife verdoppelt, Spitzenzeiten-Reduzierungen entfernt und API-Ratenlimits für Opus-Modelle erhöht. SpaceX Colossus 1 fügt innerhalb eines Monats über 300 MW Kapazität (220.000 NVIDIA-GPUs) hinzu.

OpenClawRadar
LibreOffice Online-Entwicklung wird nach Community-Abstimmung wieder aufgenommen
Nachrichten

LibreOffice Online-Entwicklung wird nach Community-Abstimmung wieder aufgenommen

Die Document Foundation hat die Arbeit an LibreOffice Online wieder aufgenommen, nachdem eine Community-Abstimmung den Einfrierungsbeschluss von 2022 aufgehoben hat. TDF wird das Repository für Beiträge wieder öffnen, aber keine Server hosten – stattdessen werden selbst hostbare Tools bereitgestellt.

OpenClawRadar
🦀
Nachrichten

FairyFuse erreicht 29,6-fache Kernel-Beschleunigung auf CPUs durch ternäre gewichtsfreie Inferenz

FairyFuse verschmilzt acht reellwertige Sub-GEMVs zu einer einzigen AVX-512-Schleife mittels maskierter Additionen/Subtraktionen, erreicht 32,4 Tokens/s auf Xeon 8558P und eine 1,24-fache Beschleunigung gegenüber llama.cpp Q4_K_M bei nahezu verlustfreier Qualität.

OpenClawRadar