EsoLang-Bench：LLM推論テスト用難解言語ベンチマーク

EsoLang-Benchは、大規模言語モデルが問題を真に推論できるか、単に学習データに対してパターンマッチングしているかをテストするために設計された新しいコーディングベンチマークです。このベンチマークは、学習データにほとんど存在しない難解プログラミング言語を使用しています。

ベンチマークの設計

このベンチマークは5つの難解プログラミング言語を使用します：Brainfuck、Befunge-98、Whitespace、Unlambda、Shakespeareです。これらの言語は、典型的な事前学習パイプラインにおいて学習データがほぼゼロであるため選ばれました。ベンチマークには、HumanEvalと同じアルゴリズム問題が同じ難易度範囲で含まれており、単にこれらの難解言語に翻訳されたものです。

テスト方法

研究者たちは5つのモデルをテストしました：GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2です。以下の5つのプロンプト戦略を使用しました：

自己足場かけ
コーダー-批評家ペア
ReActパイプライン

結果

最高の単一結果は、Befunge-98での自己足場かけによる11.2%でした。中程度、困難、超困難の難易度問題は、すべてのモデル、言語、戦略で0%のままでした。Few-shotプロンプティングは平均でわずか+0.8パーセントポイントの向上しかなく、研究者はこれを統計的にノイズと区別できないと述べています。

Claude CodeやCodexなどのエージェントシステムは、非エージェントアプローチよりも2〜3倍優れた性能を示しましたが、この改善は主に、より鋭いフィードバックループとコンテキスト管理によるものであり、実際の推論転移の証拠ではありませんでした。

エラー分析

エラーの内訳は興味深いパターンを明らかにしています：

Brainfuck（オンライン上にいくらか存在）では、モデルは有効な構文を生成できたが、論理で失敗した
Whitespace（学習データがほぼない）では、モデルは有効なプログラムさえ生成できなかった

これは、ある程度事前学習データがある言語と、基本的にない言語でのモデルの性能に明確なギャップがあることを示しています。

目的と利用可能性

このベンチマークは、高いスコアを実際に偽装することが難しい評価を作成することを目指しており、Pythonのような主流言語でのより難しい問題を超えたものに移行しています。研究者は、このアプローチがベンチマークをゲームする経済的インセンティブが存在せず、良い性能への唯一の道が真の一般化学習である評価を作成すると示唆しています。

EsoLang-Benchは、新しい言語、新しい問題タイプ、または完全に異なる分布外ドメインを通じて、他の人が構築するためのテンプレートとして利用可能です。

📖 Read the full source: r/LocalLLaMA