EsoLang-Bench: Бенчмарк для программирования с использованием эзотерических языков для проверки логики языковых моделей

EsoLang-Bench — это новый кодирующий бенчмарк, разработанный для проверки того, могут ли большие языковые модели действительно рассуждать при решении задач или просто сопоставлять шаблоны с обучающими данными. Бенчмарк использует эзотерические языки программирования с минимальным присутствием в обучающих данных.
Дизайн бенчмарка
Бенчмарк использует пять эзотерических языков программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Эти языки были выбраны потому, что в типичных конвейерах предварительного обучения для них практически нет обучающих данных. Бенчмарк содержит те же алгоритмические задачи, что и HumanEval, в том же диапазоне сложности, просто переведённые на эти эзотерические языки.
Методология тестирования
Исследователи протестировали пять моделей: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Они использовали пять стратегий промптинга, включая:
- Самоскаффолдинг
- Пары «кодер-критик»
- Конвейер ReAct
Результаты
Лучший единичный результат составил 11,2% на Befunge-98 с самоскаффолдингом. Задачи средней, высокой и сверхвысокой сложности оставались на уровне 0% для всех моделей, языков и стратегий. Фью-шот промптинг дал в среднем лишь +0,8 процентных пункта, что исследователи описывают как статистически неотличимое от шума.
Агентские системы, такие как Claude Code и Codex, показали результат в 2-3 раза лучше, чем неагентские подходы, но это улучшение в основном было связано с более точными циклами обратной связи и управлением контекстом, а не с доказательствами реального переноса способности рассуждать.
Анализ ошибок
Разбор ошибок выявляет интересные закономерности:
- На Brainfuck (который имеет некоторое присутствие в сети) модели могли генерировать корректный синтаксис, но терпели неудачу в логике
- На Whitespace (для которого практически нет обучающих данных) модели не могли даже сгенерировать валидные программы вообще
Это показывает чёткий разрыв между производительностью моделей на языках с некоторыми данными предварительного обучения и на тех, у которых их практически нет.
Цель и доступность
Цель бенчмарка — создать оценки, в которых высокие баллы действительно сложно подделать, выходя за рамки просто более сложных задач на популярных языках, таких как Python. Исследователи предполагают, что этот подход создаёт оценки, в которых экономический стимул для манипулирования бенчмарком отсутствует, и единственный путь к хорошей производительности — это настоящее умение обобщать.
EsoLang-Bench доступен как шаблон для дальнейшего развития другими, будь то через новые языки, новые типы задач или совершенно другие домены вне распределения.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

FixAI Dev: Игра о правах потребителей с использованием Claude Haiku и строгими JSON-контрактами
Разработчик создал браузерную игру, в которой Claude Haiku выступает в роли корпоративного ИИ, незаконно отклоняющего запросы потребителей; игроки спорят, используя реальные законы о защите прав потребителей в 37 случаях из ЕС, США, Великобритании и Австралии. Архитектура использует Haiku только для обработки языка, с серверной логикой игры и строгими JSON-контрактами между компонентами.

Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.
MemAware — это бенчмарк с 900 вопросами по 3 уровням сложности, который проверяет, могут ли ИИ-ассистенты с памятью извлекать релевантный контекст, когда запросы не содержат на него намёков. Результаты показывают, что BM25-поиск набрал 2,8% против 0,8% без памяти, а векторный поиск падает до 0,7% на кросс-доменных связях.

Cowork против Claude Chat: Сравнение точности извлечения документов
Разработчик протестировал чат Claude.ai и Cowork на извлечении данных из финансовых PDF-файлов объемом более 140 страниц с использованием идентичных промптов. Чат показал результаты институционального уровня с самокоррекцией и нулевыми ошибками по более чем 150 точкам данных, в то время как Cowork сфабриковал согласующие позиции, перепутал подсчеты единиц и допустил загрязнение данных из колонок предыдущего года.

CodeLedger: Открытый плагин Claude Code отслеживает использование токенов и фоновые агенты
CodeLedger — это плагин с открытым исходным кодом для сервера MCP в Claude Code, который автоматически отслеживает использование токенов в проектах, идентифицирует фоновых агентов и предоставляет рекомендации по оптимизации затрат на основе анализа локальных JSONL-файлов сессий.