EsoLang-Bench : Test de Raisonnement LLM avec Langages Ésotériques

EsoLang-Bench est un nouveau benchmark de codage conçu pour tester si les grands modèles de langage peuvent véritablement raisonner sur des problèmes ou s'ils se contentent simplement de faire du pattern-matching sur les données d'entraînement. Le benchmark utilise des langages de programmation ésotériques avec une présence minimale dans les données d'entraînement.

Conception du benchmark

Le benchmark utilise cinq langages de programmation ésotériques : Brainfuck, Befunge-98, Whitespace, Unlambda et Shakespeare. Ces langages ont été choisis car ils ont pratiquement zéro données d'entraînement dans les pipelines de pré-entraînement typiques. Le benchmark contient les mêmes problèmes algorithmiques que HumanEval sur la même gamme de difficultés, simplement traduits dans ces langages ésotériques.

Méthodologie de test

Les chercheurs ont testé cinq modèles : GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B et Kimi K2. Ils ont utilisé cinq stratégies d'invite, notamment :

Auto-échafaudage
Paires codeur-critique
Pipeline ReAct

Résultats

Le meilleur résultat unique était de 11,2 % sur Befunge-98 avec l'auto-échafaudage. Les problèmes de difficulté Moyenne, Difficile et Très difficile sont restés à 0 % pour tous les modèles, langages et stratégies. L'invite few-shot n'a donné que +0,8 point de pourcentage en moyenne, ce que les chercheurs décrivent comme statistiquement indiscernable du bruit.

Les systèmes agentiques comme Claude Code et Codex ont obtenu des résultats 2 à 3 fois meilleurs que les approches non agentiques, mais cette amélioration provenait principalement de boucles de rétroaction plus fines et d'une meilleure gestion du contexte plutôt que d'une preuve de transfert de raisonnement réel.

Analyse des erreurs

La répartition des erreurs révèle des schémas intéressants :

Sur Brainfuck (qui a une certaine présence en ligne), les modèles pouvaient produire une syntaxe valide mais échouaient sur la logique
Sur Whitespace (qui a presque aucune donnée d'entraînement), les modèles ne pouvaient même pas produire de programmes valides du tout

Cela montre un écart clair entre les performances des modèles sur les langages avec des données de pré-entraînement et ceux avec pratiquement aucune.

Objectif et disponibilité

Le benchmark vise à créer des évaluations où les scores élevés sont réellement difficiles à falsifier, allant au-delà de simples problèmes plus difficiles dans des langages grand public comme Python. Les chercheurs suggèrent que cette approche crée des évaluations où l'incitation économique à tricher sur le benchmark n'existe pas, et la seule voie vers de bonnes performances est un véritable apprentissage de la généralisation.

EsoLang-Bench est disponible comme modèle pour que d'autres puissent s'en inspirer, que ce soit par de nouveaux langages, de nouveaux types de problèmes ou des domaines totalement différents hors distribution.

📖 Read the full source: r/LocalLLaMA

EsoLang-Bench : Un benchmark de codage utilisant des langages ésotériques pour tester le raisonnement des LLM

Conception du benchmark

Méthodologie de test

Résultats

Analyse des erreurs

Objectif et disponibilité

👀 See Also

ShareMyClaudeMD : Outil Convertissant les Fichiers Markdown Générés par Claude en Pages Rendu Partageables

Développeur Indie Dévoile 'Ideanator', un Outil en Ligne de Commande pour Structurer des Idées Vagues avec des LLMs Locaux

Format d'Esprit Portable (PMF) : Spécification d'Agent Indépendante du Fournisseur avec 15 Agents Open-Source

Le tableau de bord SwarmClaw ajoute une couche d'orchestration à OpenClaw