EsoLang-Bench: Brainfuck·Whitespace로 LLM 추론력 측정 코딩 벤치마크

EsoLang-Bench는 대규모 언어 모델이 문제를 진정으로 추론해 해결하는지, 아니면 단순히 학습 데이터에 대한 패턴 매칭을 하는지 테스트하기 위해 설계된 새로운 코딩 벤치마크입니다. 이 벤치마크는 학습 데이터에 거의 포함되지 않은 난해한 프로그래밍 언어를 사용합니다.

벤치마크 설계

벤치마크는 다섯 가지 난해한 프로그래밍 언어를 사용합니다: 브레인퍽(Brainfuck), 베펑-98(Befunge-98), 화이트스페이스(Whitespace), 언람다(Unlambda), 셰익스피어(Shakespeare). 이 언어들은 일반적인 사전 학습 파이프라인에서 학습 데이터가 거의 존재하지 않기 때문에 선택되었습니다. 벤치마크는 HumanEval과 동일한 알고리즘 문제를 동일한 난이도 범위로 포함하고 있으며, 단지 이 난해한 언어들로 번역되었을 뿐입니다.

테스트 방법론

연구진은 다섯 가지 모델을 테스트했습니다: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B, Kimi K2. 그들은 다음과 같은 다섯 가지 프롬프팅 전략을 사용했습니다:

자기 주도적 스캐폴딩
코더-비평가 쌍
ReAct 파이프라인

결과

가장 좋은 단일 결과는 베펑-98에서 자기 주도적 스캐폴딩을 사용했을 때 11.2%였습니다. 중간, 어려움, 매우 어려움 난이도의 문제는 모든 모델, 언어, 전략에서 0%를 유지했습니다. 퓨샷 프롬프팅은 평균 +0.8% 포인트만 향상시켰으며, 연구진은 이를 통계적으로 노이즈와 구별되지 않는다고 설명합니다.

클로드 코드(Claude Code)와 코드엑스(Codex) 같은 에이전트 시스템은 비에이전트 접근법보다 2-3배 더 나은 성능을 보였지만, 이 개선은 실제 추론 전이의 증거보다는 더 날카로운 피드백 루프와 컨텍스트 관리에서 비롯된 것입니다.

오류 분석

오류 분석은 흥미로운 패턴을 보여줍니다:

브레인퍽(온라인에 일부 존재함)에서는 모델이 유효한 구문을 생성할 수 있었지만 논리에서 실패했습니다.
화이트스페이스(학습 데이터가 거의 없음)에서는 모델이 유효한 프로그램조차 전혀 생성하지 못했습니다.

이는 사전 학습 데이터가 어느 정도 있는 언어와 거의 없는 언어에 대한 모델의 성능 사이에 명확한 격차가 있음을 보여줍니다.

목적과 이용 가능성

이 벤치마크는 높은 점수를 실제로 속이기 어려운 평가를 만들어내는 것을 목표로 하며, 파이썬 같은 주류 언어에서 단순히 더 어려운 문제를 넘어서고자 합니다. 연구진은 이 접근법이 벤치마크를 조작하려는 경제적 유인이 존재하지 않고, 좋은 성능을 달성하는 유일한 길이 진정한 일반화 학습인 평가를 만든다고 제안합니다.

EsoLang-Bench는 다른 사람들이 새로운 언어, 새로운 문제 유형, 또는 완전히 다른 분포 외 도메인을 통해 발전시킬 수 있는 템플릿으로 이용 가능합니다.

📖 전체 원문 읽기: r/LocalLLaMA