EsoLang-Bench : Un benchmark de codage utilisant des langages ésotériques pour tester le raisonnement des LLM

✍️ OpenClawRadar📅 Publié: March 16, 2026🔗 Source
EsoLang-Bench : Un benchmark de codage utilisant des langages ésotériques pour tester le raisonnement des LLM
Ad

EsoLang-Bench est un nouveau benchmark de codage conçu pour tester si les grands modèles de langage peuvent véritablement raisonner sur des problèmes ou s'ils se contentent simplement de faire du pattern-matching sur les données d'entraînement. Le benchmark utilise des langages de programmation ésotériques avec une présence minimale dans les données d'entraînement.

Conception du benchmark

Le benchmark utilise cinq langages de programmation ésotériques : Brainfuck, Befunge-98, Whitespace, Unlambda et Shakespeare. Ces langages ont été choisis car ils ont pratiquement zéro données d'entraînement dans les pipelines de pré-entraînement typiques. Le benchmark contient les mêmes problèmes algorithmiques que HumanEval sur la même gamme de difficultés, simplement traduits dans ces langages ésotériques.

Méthodologie de test

Les chercheurs ont testé cinq modèles : GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B et Kimi K2. Ils ont utilisé cinq stratégies d'invite, notamment :

  • Auto-échafaudage
  • Paires codeur-critique
  • Pipeline ReAct

Résultats

Le meilleur résultat unique était de 11,2 % sur Befunge-98 avec l'auto-échafaudage. Les problèmes de difficulté Moyenne, Difficile et Très difficile sont restés à 0 % pour tous les modèles, langages et stratégies. L'invite few-shot n'a donné que +0,8 point de pourcentage en moyenne, ce que les chercheurs décrivent comme statistiquement indiscernable du bruit.

Les systèmes agentiques comme Claude Code et Codex ont obtenu des résultats 2 à 3 fois meilleurs que les approches non agentiques, mais cette amélioration provenait principalement de boucles de rétroaction plus fines et d'une meilleure gestion du contexte plutôt que d'une preuve de transfert de raisonnement réel.

Ad

Analyse des erreurs

La répartition des erreurs révèle des schémas intéressants :

  • Sur Brainfuck (qui a une certaine présence en ligne), les modèles pouvaient produire une syntaxe valide mais échouaient sur la logique
  • Sur Whitespace (qui a presque aucune donnée d'entraînement), les modèles ne pouvaient même pas produire de programmes valides du tout

Cela montre un écart clair entre les performances des modèles sur les langages avec des données de pré-entraînement et ceux avec pratiquement aucune.

Objectif et disponibilité

Le benchmark vise à créer des évaluations où les scores élevés sont réellement difficiles à falsifier, allant au-delà de simples problèmes plus difficiles dans des langages grand public comme Python. Les chercheurs suggèrent que cette approche crée des évaluations où l'incitation économique à tricher sur le benchmark n'existe pas, et la seule voie vers de bonnes performances est un véritable apprentissage de la généralisation.

EsoLang-Bench est disponible comme modèle pour que d'autres puissent s'en inspirer, que ce soit par de nouveaux langages, de nouveaux types de problèmes ou des domaines totalement différents hors distribution.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

cc-lens : Tableau de bord local pour l'analyse des sessions de code Claude
Tools

cc-lens : Tableau de bord local pour l'analyse des sessions de code Claude

Un développeur a créé cc-lens, un tableau de bord local qui lit les fichiers de session Claude Code depuis ~/.claude/ et fournit des analyses d'utilisation, un suivi des coûts et une relecture des sessions. Il fonctionne entièrement sur votre machine sans synchronisation cloud, inscription ou télémétrie.

OpenClawRadar
Projet d'autorecherche de Karpathy : des agents IA exécutent des expériences d'entraînement de LLM pendant la nuit.
Tools

Projet d'autorecherche de Karpathy : des agents IA exécutent des expériences d'entraînement de LLM pendant la nuit.

Andrej Karpathy a publié un projet d'autorecherche minimal où un agent IA modifie train.py, exécute des expériences d'entraînement nanochat de 5 minutes, vérifie si val_bpb s'est amélioré, et répète le processus pendant la nuit sur un seul GPU.

OpenClawRadar
Freestyle lance des Sandboxes pour les agents de codage IA avec un fork en direct
Tools

Freestyle lance des Sandboxes pour les agents de codage IA avec un fork en direct

Freestyle propose des environnements de test cloud pour les agents de codage IA qui démarrent en ~500 ms et incluent un forking en direct avec une pause <400 ms, permettant des clones complets de machines virtuelles incluant l'état mémoire. Ils exécutent Debian complet avec virtualisation matérielle sur une infrastructure bare metal.

OpenClawRadar
ClawCall : Compétence OpenClaw pour les appels téléphoniques IA avec mode pont
Tools

ClawCall : Compétence OpenClaw pour les appels téléphoniques IA avec mode pont

ClawCall est une compétence OpenClaw qui permet aux agents IA de passer de véritables appels téléphoniques, de naviguer dans les menus, de patienter en attente et de mener des conversations. Elle inclut un mode pont qui vous met en ligne lorsqu'un humain décroche.

OpenClawRadar