EsoLang-Bench: LLM 추론 능력을 테스트하기 위한 난해한 프로그래밍 언어를 활용한 코딩 벤치마크

✍️ OpenClawRadar📅 게시일: March 16, 2026🔗 Source
EsoLang-Bench: LLM 추론 능력을 테스트하기 위한 난해한 프로그래밍 언어를 활용한 코딩 벤치마크
Ad

EsoLang-Bench는 대규모 언어 모델이 문제를 진정으로 추론해 해결하는지, 아니면 단순히 학습 데이터에 대한 패턴 매칭을 하는지 테스트하기 위해 설계된 새로운 코딩 벤치마크입니다. 이 벤치마크는 학습 데이터에 거의 포함되지 않은 난해한 프로그래밍 언어를 사용합니다.

벤치마크 설계

벤치마크는 다섯 가지 난해한 프로그래밍 언어를 사용합니다: 브레인퍽(Brainfuck), 베펑-98(Befunge-98), 화이트스페이스(Whitespace), 언람다(Unlambda), 셰익스피어(Shakespeare). 이 언어들은 일반적인 사전 학습 파이프라인에서 학습 데이터가 거의 존재하지 않기 때문에 선택되었습니다. 벤치마크는 HumanEval과 동일한 알고리즘 문제를 동일한 난이도 범위로 포함하고 있으며, 단지 이 난해한 언어들로 번역되었을 뿐입니다.

테스트 방법론

연구진은 다섯 가지 모델을 테스트했습니다: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B, Kimi K2. 그들은 다음과 같은 다섯 가지 프롬프팅 전략을 사용했습니다:

  • 자기 주도적 스캐폴딩
  • 코더-비평가 쌍
  • ReAct 파이프라인

결과

가장 좋은 단일 결과는 베펑-98에서 자기 주도적 스캐폴딩을 사용했을 때 11.2%였습니다. 중간, 어려움, 매우 어려움 난이도의 문제는 모든 모델, 언어, 전략에서 0%를 유지했습니다. 퓨샷 프롬프팅은 평균 +0.8% 포인트만 향상시켰으며, 연구진은 이를 통계적으로 노이즈와 구별되지 않는다고 설명합니다.

클로드 코드(Claude Code)와 코드엑스(Codex) 같은 에이전트 시스템은 비에이전트 접근법보다 2-3배 더 나은 성능을 보였지만, 이 개선은 실제 추론 전이의 증거보다는 더 날카로운 피드백 루프와 컨텍스트 관리에서 비롯된 것입니다.

Ad

오류 분석

오류 분석은 흥미로운 패턴을 보여줍니다:

  • 브레인퍽(온라인에 일부 존재함)에서는 모델이 유효한 구문을 생성할 수 있었지만 논리에서 실패했습니다.
  • 화이트스페이스(학습 데이터가 거의 없음)에서는 모델이 유효한 프로그램조차 전혀 생성하지 못했습니다.

이는 사전 학습 데이터가 어느 정도 있는 언어와 거의 없는 언어에 대한 모델의 성능 사이에 명확한 격차가 있음을 보여줍니다.

목적과 이용 가능성

이 벤치마크는 높은 점수를 실제로 속이기 어려운 평가를 만들어내는 것을 목표로 하며, 파이썬 같은 주류 언어에서 단순히 더 어려운 문제를 넘어서고자 합니다. 연구진은 이 접근법이 벤치마크를 조작하려는 경제적 유인이 존재하지 않고, 좋은 성능을 달성하는 유일한 길이 진정한 일반화 학습인 평가를 만든다고 제안합니다.

EsoLang-Bench는 다른 사람들이 새로운 언어, 새로운 문제 유형, 또는 완전히 다른 분포 외 도메인을 통해 발전시킬 수 있는 템플릿으로 이용 가능합니다.

📖 전체 원문 읽기: r/LocalLLaMA

Ad

👀 See Also

Claude Code Mastery: 오픈소스 설정 시스템으로 Claude Code CLI에 지속적 메모리와 선별된 스킬 추가
Tools

Claude Code Mastery: 오픈소스 설정 시스템으로 Claude Code CLI에 지속적 메모리와 선별된 스킬 추가

Claude Code Mastery는 세션 간 지속적인 메모리, 스마트 라이프사이클 훅, Claude Code CLI에 대한 26개 이상의 선별된 스킬을 추가하는 오픈소스 구성 시스템입니다. 프로젝트당 6파일 메모리 뱅크, 제로 설정 런처, 크로스 플랫폼 지원을 포함합니다.

OpenClawRadar
Obliteratus 도구를 사용하여 AI 모델의 거부 가중치 제거하기
Tools

Obliteratus 도구를 사용하여 AI 모델의 거부 가중치 제거하기

레딧 사용자가 AI 모델의 거부 행동을 담당하는 특정 가중치를 외과적으로 제거하기 위해 Obliteratus 툴킷을 사용했으며, 이는 알리바바의 Qwen 1.5B 모델에서 재훈련 없이도 훈련 출처를 드러낼 수 있음을 보여주었습니다.

OpenClawRadar
ClaudeMeter: 실시간 Claude 사용량 추적을 위한 오픈소스 macOS 메뉴 바 앱
Tools

ClaudeMeter: 실시간 Claude 사용량 추적을 위한 오픈소스 macOS 메뉴 바 앱

ClaudeMeter는 Claude Max 구독자를 위한 무료 오픈소스 macOS 메뉴 바 앱으로, 워크플로우를 방해하지 않으면서 세션 및 주간 사용량 백분율, 재설정 타이머, 속도 지표를 표시합니다. 전체 앱은 Swift 코드, Supabase 백엔드 및 Edge Functions에 Claude(Claude Code/Opus)를 사용하여 구축되었습니다.

OpenClawRadar
클로드 코드의 로컬 메모리 통합과 쇼드: 시간 경과에 따른 컨텍스트 유지 강화
Tools

클로드 코드의 로컬 메모리 통합과 쇼드: 시간 경과에 따른 컨텍스트 유지 강화

Claude Code와 Shodh 메모리의 통합을 통해 로컬 메모리 서버를 사용한 장기 프로젝트 컨텍스트 유지 기능을 살펴보세요.

OpenClawRadar