EsoLang-Bench: Бенчмарк для программирования с использованием эзотерических языков для проверки логики языковых моделей

✍️ OpenClawRadar📅 Опубликовано: 16 марта 2026 г.🔗 Source

EsoLang-Bench — это новый кодирующий бенчмарк, разработанный для проверки того, могут ли большие языковые модели действительно рассуждать при решении задач или просто сопоставлять шаблоны с обучающими данными. Бенчмарк использует эзотерические языки программирования с минимальным присутствием в обучающих данных.

Дизайн бенчмарка

Бенчмарк использует пять эзотерических языков программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Эти языки были выбраны потому, что в типичных конвейерах предварительного обучения для них практически нет обучающих данных. Бенчмарк содержит те же алгоритмические задачи, что и HumanEval, в том же диапазоне сложности, просто переведённые на эти эзотерические языки.

Методология тестирования

Исследователи протестировали пять моделей: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Они использовали пять стратегий промптинга, включая:

Самоскаффолдинг
Пары «кодер-критик»
Конвейер ReAct

Результаты

Лучший единичный результат составил 11,2% на Befunge-98 с самоскаффолдингом. Задачи средней, высокой и сверхвысокой сложности оставались на уровне 0% для всех моделей, языков и стратегий. Фью-шот промптинг дал в среднем лишь +0,8 процентных пункта, что исследователи описывают как статистически неотличимое от шума.

Агентские системы, такие как Claude Code и Codex, показали результат в 2-3 раза лучше, чем неагентские подходы, но это улучшение в основном было связано с более точными циклами обратной связи и управлением контекстом, а не с доказательствами реального переноса способности рассуждать.

Анализ ошибок

Разбор ошибок выявляет интересные закономерности:

На Brainfuck (который имеет некоторое присутствие в сети) модели могли генерировать корректный синтаксис, но терпели неудачу в логике
На Whitespace (для которого практически нет обучающих данных) модели не могли даже сгенерировать валидные программы вообще

Это показывает чёткий разрыв между производительностью моделей на языках с некоторыми данными предварительного обучения и на тех, у которых их практически нет.

Цель и доступность

Цель бенчмарка — создать оценки, в которых высокие баллы действительно сложно подделать, выходя за рамки просто более сложных задач на популярных языках, таких как Python. Исследователи предполагают, что этот подход создаёт оценки, в которых экономический стимул для манипулирования бенчмарком отсутствует, и единственный путь к хорошей производительности — это настоящее умение обобщать.

EsoLang-Bench доступен как шаблон для дальнейшего развития другими, будь то через новые языки, новые типы задач или совершенно другие домены вне распределения.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

FixAI Dev: Игра о правах потребителей с использованием Claude Haiku и строгими JSON-контрактами

Разработчик создал браузерную игру, в которой Claude Haiku выступает в роли корпоративного ИИ, незаконно отклоняющего запросы потребителей; игроки спорят, используя реальные законы о защите прав потребителей в 37 случаях из ЕС, США, Великобритании и Австралии. Архитектура использует Haiku только для обработки языка, с серверной логикой игры и строгими JSON-контрактами между компонентами.

31 мар. 2026 г., 19:45 UTC

OpenClawRadar

Инструменты

Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.

MemAware — это бенчмарк с 900 вопросами по 3 уровням сложности, который проверяет, могут ли ИИ-ассистенты с памятью извлекать релевантный контекст, когда запросы не содержат на него намёков. Результаты показывают, что BM25-поиск набрал 2,8% против 0,8% без памяти, а векторный поиск падает до 0,7% на кросс-доменных связях.

27 мар. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

Cowork против Claude Chat: Сравнение точности извлечения документов

Разработчик протестировал чат Claude.ai и Cowork на извлечении данных из финансовых PDF-файлов объемом более 140 страниц с использованием идентичных промптов. Чат показал результаты институционального уровня с самокоррекцией и нулевыми ошибками по более чем 150 точкам данных, в то время как Cowork сфабриковал согласующие позиции, перепутал подсчеты единиц и допустил загрязнение данных из колонок предыдущего года.

1 мар. 2026 г., 13:45 UTC

OpenClawRadar

Инструменты

CodeLedger: Открытый плагин Claude Code отслеживает использование токенов и фоновые агенты

CodeLedger — это плагин с открытым исходным кодом для сервера MCP в Claude Code, который автоматически отслеживает использование токенов в проектах, идентифицирует фоновых агентов и предоставляет рекомендации по оптимизации затрат на основе анализа локальных JSONL-файлов сессий.

20 мар. 2026 г., 06:45 UTC

OpenClawRadar