EsoLang-Bench: Бенчмарк для программирования с использованием эзотерических языков для проверки логики языковых моделей

✍️ OpenClawRadar📅 Опубликовано: 16 марта 2026 г.🔗 Source
EsoLang-Bench: Бенчмарк для программирования с использованием эзотерических языков для проверки логики языковых моделей
Ad

EsoLang-Bench — это новый кодирующий бенчмарк, разработанный для проверки того, могут ли большие языковые модели действительно рассуждать при решении задач или просто сопоставлять шаблоны с обучающими данными. Бенчмарк использует эзотерические языки программирования с минимальным присутствием в обучающих данных.

Дизайн бенчмарка

Бенчмарк использует пять эзотерических языков программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Эти языки были выбраны потому, что в типичных конвейерах предварительного обучения для них практически нет обучающих данных. Бенчмарк содержит те же алгоритмические задачи, что и HumanEval, в том же диапазоне сложности, просто переведённые на эти эзотерические языки.

Методология тестирования

Исследователи протестировали пять моделей: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Они использовали пять стратегий промптинга, включая:

  • Самоскаффолдинг
  • Пары «кодер-критик»
  • Конвейер ReAct

Результаты

Лучший единичный результат составил 11,2% на Befunge-98 с самоскаффолдингом. Задачи средней, высокой и сверхвысокой сложности оставались на уровне 0% для всех моделей, языков и стратегий. Фью-шот промптинг дал в среднем лишь +0,8 процентных пункта, что исследователи описывают как статистически неотличимое от шума.

Агентские системы, такие как Claude Code и Codex, показали результат в 2-3 раза лучше, чем неагентские подходы, но это улучшение в основном было связано с более точными циклами обратной связи и управлением контекстом, а не с доказательствами реального переноса способности рассуждать.

Ad

Анализ ошибок

Разбор ошибок выявляет интересные закономерности:

  • На Brainfuck (который имеет некоторое присутствие в сети) модели могли генерировать корректный синтаксис, но терпели неудачу в логике
  • На Whitespace (для которого практически нет обучающих данных) модели не могли даже сгенерировать валидные программы вообще

Это показывает чёткий разрыв между производительностью моделей на языках с некоторыми данными предварительного обучения и на тех, у которых их практически нет.

Цель и доступность

Цель бенчмарка — создать оценки, в которых высокие баллы действительно сложно подделать, выходя за рамки просто более сложных задач на популярных языках, таких как Python. Исследователи предполагают, что этот подход создаёт оценки, в которых экономический стимул для манипулирования бенчмарком отсутствует, и единственный путь к хорошей производительности — это настоящее умение обобщать.

EsoLang-Bench доступен как шаблон для дальнейшего развития другими, будь то через новые языки, новые типы задач или совершенно другие домены вне распределения.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

FixAI Dev: Игра о правах потребителей с использованием Claude Haiku и строгими JSON-контрактами
Инструменты

FixAI Dev: Игра о правах потребителей с использованием Claude Haiku и строгими JSON-контрактами

Разработчик создал браузерную игру, в которой Claude Haiku выступает в роли корпоративного ИИ, незаконно отклоняющего запросы потребителей; игроки спорят, используя реальные законы о защите прав потребителей в 37 случаях из ЕС, США, Великобритании и Австралии. Архитектура использует Haiku только для обработки языка, с серверной логикой игры и строгими JSON-контрактами между компонентами.

OpenClawRadar
Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.
Инструменты

Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.

MemAware — это бенчмарк с 900 вопросами по 3 уровням сложности, который проверяет, могут ли ИИ-ассистенты с памятью извлекать релевантный контекст, когда запросы не содержат на него намёков. Результаты показывают, что BM25-поиск набрал 2,8% против 0,8% без памяти, а векторный поиск падает до 0,7% на кросс-доменных связях.

OpenClawRadar
Cowork против Claude Chat: Сравнение точности извлечения документов
Инструменты

Cowork против Claude Chat: Сравнение точности извлечения документов

Разработчик протестировал чат Claude.ai и Cowork на извлечении данных из финансовых PDF-файлов объемом более 140 страниц с использованием идентичных промптов. Чат показал результаты институционального уровня с самокоррекцией и нулевыми ошибками по более чем 150 точкам данных, в то время как Cowork сфабриковал согласующие позиции, перепутал подсчеты единиц и допустил загрязнение данных из колонок предыдущего года.

OpenClawRadar
CodeLedger: Открытый плагин Claude Code отслеживает использование токенов и фоновые агенты
Инструменты

CodeLedger: Открытый плагин Claude Code отслеживает использование токенов и фоновые агенты

CodeLedger — это плагин с открытым исходным кодом для сервера MCP в Claude Code, который автоматически отслеживает использование токенов в проектах, идентифицирует фоновых агентов и предоставляет рекомендации по оптимизации затрат на основе анализа локальных JSONL-файлов сессий.

OpenClawRadar