EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen

EsoLang-Bench ist ein neuer Programmier-Benchmark, der testen soll, ob große Sprachmodelle Probleme tatsächlich durchdacht lösen oder lediglich Muster aus ihren Trainingsdaten abgleichen. Der Benchmark nutzt exotische Programmiersprachen, die in Trainingsdaten kaum vorkommen.
Benchmark-Design
Der Benchmark verwendet fünf exotische Programmiersprachen: Brainfuck, Befunge-98, Whitespace, Unlambda und Shakespeare. Diese Sprachen wurden ausgewählt, weil sie in typischen Vor-Trainings-Pipelines praktisch keine Trainingsdaten haben. Der Benchmark enthält dieselben algorithmischen Probleme wie HumanEval im gleichen Schwierigkeitsbereich, nur in diese exotischen Sprachen übersetzt.
Testmethodik
Die Forscher testeten fünf Modelle: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B und Kimi K2. Sie verwendeten fünf Prompting-Strategien, darunter:
- Selbstgestütztes Scaffolding
- Coder-Kritiker-Paare
- ReAct-Pipeline
Ergebnisse
Das beste Einzelergebnis war 11,2 % bei Befunge-98 mit selbstgestütztem Scaffolding. Probleme mittlerer, hoher und sehr hoher Schwierigkeit blieben bei 0 % über alle Modelle, Sprachen und Strategien hinweg. Few-Shot-Prompting brachte im Durchschnitt nur +0,8 Prozentpunkte, was die Forscher als statistisch nicht vom Rauschen unterscheidbar beschreiben.
Agenten-Systeme wie Claude Code und Codex schnitten 2-3 mal besser ab als nicht-agentische Ansätze, aber diese Verbesserung kam hauptsächlich von schärferen Feedback-Schleifen und besserem Kontextmanagement, nicht von Belegen für tatsächlichen Denktransfer.
Fehleranalyse
Die Fehleraufschlüsselung zeigt interessante Muster:
- Bei Brainfuck (das online etwas präsent ist) konnten Modelle gültige Syntax erzeugen, scheiterten aber an der Logik
- Bei Whitespace (das fast keine Trainingsdaten hat) konnten Modelle nicht einmal gültige Programme erzeugen
Dies zeigt eine deutliche Kluft zwischen der Leistung der Modelle bei Sprachen mit etwas Vor-Trainings-Daten gegenüber solchen mit praktisch keinen.
Zweck und Verfügbarkeit
Der Benchmark zielt darauf ab, Bewertungen zu schaffen, bei denen hohe Punktzahlen tatsächlich schwer zu fälschen sind, und geht damit über bloß schwierigere Probleme in gängigen Sprachen wie Python hinaus. Die Forscher schlagen vor, dass dieser Ansatz Bewertungen schafft, bei denen der wirtschaftliche Anreiz, den Benchmark zu manipulieren, nicht existiert und der einzige Weg zu guter Leistung echtes Lernen zur Verallgemeinerung ist.
EsoLang-Bench ist als Vorlage für andere verfügbar, um darauf aufzubauen, sei es durch neue Sprachen, neue Problemtypen oder völlig andere Bereiche außerhalb der Verteilung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

OpenClaw Smart Router als Open Source für automatische Modellauswahl veröffentlicht
Ein Entwickler hat einen Smart Router für OpenClaw quelloffen gemacht, der Abfragen automatisch nach Komplexität klassifiziert und sie zu optimalen Modellen weiterleitet, wodurch im Vergleich zur ausschließlichen Nutzung von Premium-Modellen wie Claude oder GPT-4o 60–80 % der API-Kosten eingespart werden.

cc+ Desktop App für Claude Code: Multi-Session-Management und Flottenorchestrierung
cc+ ist eine Open-Source-Desktopanwendung für Claude Code, die auf dem Claude Agent SDK basiert und für macOS und Linux verfügbar ist. Sie bietet Multi-Session-Tabs, Live-Aktivitätsbaumvisualisierung, Sicherheitsbewertung, Workflow-Durchsetzung und Flottenorchestrierungsfunktionen.

Myelin: MD-Extraktor und Evaluator für prozedurales Gedächtnis von Claude-Code
Myelin ist ein MCP-Server, der sich über PostToolUse in Claude Code einklinkt, um Tool-Aufrufe zu erfassen, automatisch .md-Prozedurdateien aus erfolgreichen Sitzungen zu extrahieren und zu verfolgen, ob Claude bestehende Prozeduren Schritt für Schritt befolgt.

Claude-Skills-Maintainer sucht Feedback zu 181 Agent Skills Library
Reza, der Betreuer von claude-skills, bittet die Community um Feedback zu seiner Open-Source-Bibliothek, die 181 Agenten-Fähigkeiten, 250 Python-Tools und 15 Agenten-Personas enthält, die über 11 KI-Codierungstools hinweg funktionieren. Er hinterfragt, ob der isolierte Fähigkeitsansatz effektiv ist, und möchte Input zu fehlenden Fähigkeiten, persona-basierten Agenten und Tool-Integrationen.