EsoLang-Bench:LLMの推論をテストするための難解プログラミング言語を用いたコーディングベンチマーク

✍️ OpenClawRadar📅 公開日: March 16, 2026🔗 Source
EsoLang-Bench:LLMの推論をテストするための難解プログラミング言語を用いたコーディングベンチマーク
Ad

EsoLang-Benchは、大規模言語モデルが問題を真に推論できるか、単に学習データに対してパターンマッチングしているかをテストするために設計された新しいコーディングベンチマークです。このベンチマークは、学習データにほとんど存在しない難解プログラミング言語を使用しています。

ベンチマークの設計

このベンチマークは5つの難解プログラミング言語を使用します:Brainfuck、Befunge-98、Whitespace、Unlambda、Shakespeareです。これらの言語は、典型的な事前学習パイプラインにおいて学習データがほぼゼロであるため選ばれました。ベンチマークには、HumanEvalと同じアルゴリズム問題が同じ難易度範囲で含まれており、単にこれらの難解言語に翻訳されたものです。

テスト方法

研究者たちは5つのモデルをテストしました:GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2です。以下の5つのプロンプト戦略を使用しました:

  • 自己足場かけ
  • コーダー-批評家ペア
  • ReActパイプライン

結果

最高の単一結果は、Befunge-98での自己足場かけによる11.2%でした。中程度、困難、超困難の難易度問題は、すべてのモデル、言語、戦略で0%のままでした。Few-shotプロンプティングは平均でわずか+0.8パーセントポイントの向上しかなく、研究者はこれを統計的にノイズと区別できないと述べています。

Claude CodeやCodexなどのエージェントシステムは、非エージェントアプローチよりも2〜3倍優れた性能を示しましたが、この改善は主に、より鋭いフィードバックループとコンテキスト管理によるものであり、実際の推論転移の証拠ではありませんでした。

Ad

エラー分析

エラーの内訳は興味深いパターンを明らかにしています:

  • Brainfuck(オンライン上にいくらか存在)では、モデルは有効な構文を生成できたが、論理で失敗した
  • Whitespace(学習データがほぼない)では、モデルは有効なプログラムさえ生成できなかった

これは、ある程度事前学習データがある言語と、基本的にない言語でのモデルの性能に明確なギャップがあることを示しています。

目的と利用可能性

このベンチマークは、高いスコアを実際に偽装することが難しい評価を作成することを目指しており、Pythonのような主流言語でのより難しい問題を超えたものに移行しています。研究者は、このアプローチがベンチマークをゲームする経済的インセンティブが存在せず、良い性能への唯一の道が真の一般化学習である評価を作成すると示唆しています。

EsoLang-Benchは、新しい言語、新しい問題タイプ、または完全に異なる分布外ドメインを通じて、他の人が構築するためのテンプレートとして利用可能です。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

フィンガープリントのAIエージェント開発者向け無料Webボット認証テストツール
Tools

フィンガープリントのAIエージェント開発者向け無料Webボット認証テストツール

Fingerprintは、Web Bot Authの実装をテストするための無料の公開エンドポイントをリリースしました。このツールはHTTPリクエストの暗号署名を検証し、ボットやAIエージェントの開発者が本番環境に移行する前にWBAの設定が正しく機能することを確認するのに役立ちます。

OpenClawRadar
Claude Code用デザインスタジオプラグイン:9つの役割と16のコマンドを備えた仮想デザインチームを追加
Tools

Claude Code用デザインスタジオプラグイン:9つの役割と16のコマンドを備えた仮想デザインチームを追加

Design Studioという新しいClaude Codeプラグインは、9つの専門役割、16のスラッシュコマンド、5つのエージェントを備え、完全なデザインチームをシミュレートします。技術スタックを自動検出し、参照ファイルにわたって8,000行以上のデザイン知識を含んでいます。

OpenClawRadar
PayClaw、仮想Visaカードを備えた決済MCPサーバーのサンドボックスを開始
Tools

PayClaw、仮想Visaカードを備えた決済MCPサーバーのサンドボックスを開始

PayClawは、支払いMCPサーバーのサンドボックス環境をリリースしました。これには、15分で有効期限が切れる加盟店限定の仮想Visaカード、取引ごとのMFAゲートによる人的承認、カード発行前の意図宣言機能が含まれています。本番用カードは3月4日を予定しています。

OpenClawRadar
Claudeを用いたObsidian用エージェント型RAGの構築と幻覚検出のための評価ハーネス
Tools

Claudeを用いたObsidian用エージェント型RAGの構築と幻覚検出のための評価ハーネス

ある開発者が、自身のObsidian Vault上にエージェンティックRAGシステムを構築し、Claudeが工学書の質問に回答できるようにした。さらに、Claude Sonnetを判定役とする評価ハーネスを作成し、エージェントが誤った内容を自信満々に出力するケースを検出できるようにした。ルーブリックの反復改良により、判定者と人間の一致率が39%から94%に向上した。

OpenClawRadar