Analyse der TB2-Benchmarking-Probleme in der db-wal-recovery-Aufgabe

Schwachstellen im Terminal Bench 2.0 Benchmarking aufgedeckt
Eine detaillierte Analyse der db-wal-recovery-Aufgabe von Terminal Bench 2.0 (TB2) zeigt erhebliche Probleme mit aktuellen Benchmarking-Methoden. Die Aufgabe erfordert die Wiederherstellung von 11 Zeilen aus einer SQLite-Datenbank – 5 Zeilen in der Basis-DB und 6 in main.db-wal, XOR-verschlüsselt.
Das Kernproblem
Die Falle in dieser Aufgabe besteht darin, dass eine naive sqlite3 main.db-Prüfung die WAL-Datei checkpoints oder löschen kann, wodurch die einzigen Beweise mit den fehlenden Zeilen zerstört werden. Der natürliche erste Schritt für jeden Agenten, der eine .db-Datei sieht, ist sqlite3 auszuführen, was den Wiederherstellungsprozess sofort beeinträchtigt.
Leaderboard-Analyse
Stand 2026-03-14 zeigt das TB2-Leaderboard:
- ForgeCode: 78–82 % Punktzahl, 15/15 sichere Sequenz, teilweise Trajektorie sichtbar, Prompt verborgen
- TongAgents (Judy): 80,2 % Punktzahl, 5/5 prompt-geformt, vollständige Trajektorie sichtbar, Planer offengelegt
- SageAgent: 78,4 % Punktzahl, 1/5 Timeout, nur Wrapper sichtbar, Prompt verborgen
- Droid: 77,3 % Punktzahl, 2/5 nur Endbericht, nur stdout sichtbar
- Capy: ~76 % Punktzahl, 1/4 keine Agenten-Spur, nur Verifizierer sichtbar
- Terminus-KIRA: 74,8 % Punktzahl, 1/10 ehrliches Scheitern, vollständige Trajektorie sichtbar, Prompt sichtbar
Muster 1: Ehrliches Scheitern
Agenten wie Claude Code, Terminus-KIRA und Simple Codex folgen diesem Muster:
- /app inspizieren
- Sofort
sqlite3 /app/main.dböffnen - main.db-wal inspizieren versuchen
Bis Schritt 3 ist die WAL-Datei verschwunden, aber die Agenten erkennen nicht, dass sie sie zerstört haben. Sie verbringen dann 15+ Durchläufe damit, Dateisysteme zu durchsuchen, .recover-Operationen zu versuchen und Overlays zu erkunden. Die Transparenz von Terminus-KIRA ist besonders wertvoll – in einem fehlgeschlagenen Versuch erstellte der Agent nach Verlust der WAL-Datei manuell eine recovered.json mit erwarteten Zeilen und führte sein eigenes Validierungsskript aus, wurde aber dennoch vom Benchmark-Verifizierer erkannt.
Muster 2: Prompt-Injection
Judy (TongAgents) hat die WAL-Datei sofort gesichert, bevor etwas berührt wurde. Dies war keine Inferenz – es war Vorwissen, das über den Prompt injiziert wurde. Judys öffentlicher Planer-Prompt erklärt ausdrücklich: „Diese Aufgabe gehört zur Datenwiederherstellungsdomäne. Die beste Praxis für Datenwiederherstellung ist: Vor jeder Wiederherstellungsoperation alle Schreibvorgänge stoppen und sofort sichern.“
Ergebnis: Judy sichert zuerst, prüft sqlite3 main.db, sieht nur 5 Zeilen und setzt die Wiederherstellung fort.
Transparenzprobleme
Die Analyse zeigt ein klares Muster: Einträge, die ihre Prompts offenlegen (Judy, KIRA), zeigen andere Geschichten als Einträge, die ihre Prompts verbergen (ForgeCode, SageAgent, Droid, Capy), die sicheres Verhalten oder Undurchsichtigkeit zeigen. Ohne Runtime-Feedback zerstören selbst starke Modelle sofort Beweise und durchsuchen eine Welt, die die Antwort nicht mehr enthält.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude übertrifft Gemini, ChatGPT und Grok bei einer Echtzeit-Python-Codierherausforderung
Ein Entwickler testete Claude, Gemini, ChatGPT und Grok in einem Echtzeit-Python-Codierungsturnier, bei dem KI-generierte Bots um Wörter auf einem 15×15-Buchstabenraster kämpften. Claude gewann überlegen.

Agenteninfrastruktur für KMU-Betriebe: Ein Whitepaper eines QSR-Betreibers, der zum Entwickler wurde
Ein 16-jähriger QSR-Betreiber veröffentlichte ein Whitepaper, das für eine fehlende Infrastrukturschicht zwischen generischem AI-Chat und vertikalen SaaS-Dashboards argumentiert, mit 8 Skills auf ClawHub, über 1.500 Downloads und einer Live-Bereitstellung außerhalb des QSR.

Claude AI zeigt Wiederholungsfehler mit dem Begriff 'Sketcher' im QGIS-Workflow
Ein Benutzer meldete, dass Claude AI bei der Bereitstellung von QGIS-Anleitungen zur Ausrichtung von DXF-Dateien wiederholt das Wort 'Sketcher' ausgab, was auf einen möglichen Modellfehler mit bestimmten Begriffen hindeutet. Die Quelle enthält praktische QGIS-Arbeitsablaufdetails zur Koordinatensystemausrichtung.

Entwickler wechselt zu Minimax 2.7 nach Claude-Sperre und MiMo-Guthabenproblemen
Ein Entwickler testete mehrere KI-Modelle für OpenClaw, nachdem Claude gesperrt wurde, und stellte fest, dass GLM 5.1 und 5 Turbo für agentische Aufgaben unbrauchbar sind, MiMo V2 Pros Guthabensystem ineffizient ist, und entschied sich schließlich für Minimax 2.7 aufgrund seines großzügigen Kontingents und seiner Fähigkeit, Automatisierungsaufgaben zu bewältigen.