db-wal-recoveryタスクにおけるTB2ベンチマーキング問題の分析

✍️ OpenClawRadar📅 公開日: March 17, 2026🔗 Source
db-wal-recoveryタスクにおけるTB2ベンチマーキング問題の分析
Ad

Terminal Bench 2.0のベンチマーク欠陥が暴露

Terminal Bench 2.0(TB2)のdb-wal-recoveryタスクの詳細な分析により、現在のベンチマーク手法に重大な問題があることが明らかになりました。このタスクでは、SQLiteデータベースから11行を回復する必要があります。基本DBに5行、main.db-walに6行がXOR暗号化されています。

核心の問題

このタスクの罠は、単純なsqlite3 main.dbプローブがWALファイルをチェックポイントまたは削除してしまい、欠落行を含む唯一の証拠を破壊してしまうことです。.dbファイルを見たエージェントの自然な最初の動きはsqlite3を実行することですが、これが即座に回復プロセスを危険にさらします。

リーダーボード分析

2026年3月14日現在のTB2リーダーボードは以下の通りです:

  • ForgeCode: 78–82%スコア、15/15安全なシーケンス、部分的な軌跡可視、プロンプト非表示
  • TongAgents(Judy): 80.2%スコア、5/5プロンプト形成済み、完全な軌跡可視、プランナー公開
  • SageAgent: 78.4%スコア、1/5タイムアウト、ラッパーのみ可視、プロンプト非表示
  • Droid: 77.3%スコア、2/5最終レポートのみ、標準出力のみ可視
  • Capy: 約76%スコア、1/4エージェント痕跡なし、検証者のみ可視
  • Terminus-KIRA: 74.8%スコア、1/10正直な失敗、完全な軌跡可視、プロンプト可視
Ad

パターン1:正直な失敗

Claude Code、Terminus-KIRA、Simple Codexなどのエージェントはこのパターンに従います:

  1. /appを検査
  2. 直ちにsqlite3 /app/main.dbを開く
  3. main.db-walを検査しようとする

ステップ3までにWALは消えてしまいますが、エージェントは自分がそれを破壊したことに気づきません。その後、15ターン以上を費やしてファイルシステムを検索し、.recover操作を試み、オーバーレイを探索します。Terminus-KIRAの透明性は特に価値があります。失敗した試行の一つでは、WALを失った後、期待される行を含むrecovered.jsonを手作業で作成し、独自の検証スクリプトを実行しましたが、それでもベンチマーク検証器に捕捉されました。

パターン2:プロンプトインジェクション

Judy(TongAgents)は何も触れる前に直ちにWALをバックアップしました。これは推論ではなく、プロンプトを通じて注入された事前認識でした。Judyの公開プランナープロンプトには明示的に「このタスクはデータ回復ドメインに属します。データ回復のベストプラクティスは:いかなる回復操作の前に、すべての書き込みを停止し、直ちにバックアップすることです」と記載されています。

結果:Judyは最初にバックアップを取り、sqlite3 main.dbをプローブし、5行しかないことを確認し、回復を続行します。

透明性の問題

分析により明確なパターンが明らかになりました:プロンプトを公開するエントリー(Judy、KIRA)は、プロンプトを隠すエントリー(ForgeCode、SageAgent、Droid、Capy)とは異なる物語を示しています。後者は安全な行動や不透明性を示します。ランタイムフィードバックがないと、強力なモデルでさえ証拠を即座に燃やし、もはや答えを含まない世界を検索してしまいます。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

InclusionAI、Ring-2.6-1Tをリリース:エージェントワークフロー向けの1兆パラメータモデル
News

InclusionAI、Ring-2.6-1Tをリリース:エージェントワークフロー向けの1兆パラメータモデル

InclusionAIは、エージェント実行向けに最適化された1兆パラメータの推論モデルRing-2.6-1Tを発表しました。高/超高の2段階の推論努力レベルと、IcePopアルゴリズムによる非同期RLトレーニングを特徴としています。

OpenClawRadar
スーパーマイクロ共同創業者を含む3名、AI技術輸出事件で起訴される
News

スーパーマイクロ共同創業者を含む3名、AI技術輸出事件で起訴される

スーパーマイクロコンピュータの共同創業者チャールズ・リアンを含む3名が、米国当局により、AI技術を中国へ違法に輸出する計画を企てたとして起訴されました。この事件は、輸出管理法違反の疑いが含まれています。

OpenClawRadar
ブルームバーグ報道、AI関連の米国雇用喪失が増加し始める
News

ブルームバーグ報道、AI関連の米国雇用喪失が増加し始める

ブルームバーグの報道によると、米国ではAIに影響される職種で大幅な雇用喪失が見られており、Hacker Newsの議論では開発者やその他の知識労働者への実際の影響が指摘されています。

OpenClawRadar
GPT-5.5がGitHub Copilotで利用可能に、プレミアム倍率は7.5倍
News

GPT-5.5がGitHub Copilotで利用可能に、プレミアム倍率は7.5倍

OpenAIのGPT-5.5がGitHub Copilotで展開開始。複数ステップにわたるエージェント型コーディングが改善され、Pro+、Business、Enterpriseユーザー向けに7.5倍のプロモーションリクエスト倍率を提供。

OpenClawRadar