EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen

EsoLang-Bench ist ein neuer Programmier-Benchmark, der testen soll, ob große Sprachmodelle Probleme tatsächlich durchdacht lösen oder lediglich Muster aus ihren Trainingsdaten abgleichen. Der Benchmark nutzt exotische Programmiersprachen, die in Trainingsdaten kaum vorkommen.
Benchmark-Design
Der Benchmark verwendet fünf exotische Programmiersprachen: Brainfuck, Befunge-98, Whitespace, Unlambda und Shakespeare. Diese Sprachen wurden ausgewählt, weil sie in typischen Vor-Trainings-Pipelines praktisch keine Trainingsdaten haben. Der Benchmark enthält dieselben algorithmischen Probleme wie HumanEval im gleichen Schwierigkeitsbereich, nur in diese exotischen Sprachen übersetzt.
Testmethodik
Die Forscher testeten fünf Modelle: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B und Kimi K2. Sie verwendeten fünf Prompting-Strategien, darunter:
- Selbstgestütztes Scaffolding
- Coder-Kritiker-Paare
- ReAct-Pipeline
Ergebnisse
Das beste Einzelergebnis war 11,2 % bei Befunge-98 mit selbstgestütztem Scaffolding. Probleme mittlerer, hoher und sehr hoher Schwierigkeit blieben bei 0 % über alle Modelle, Sprachen und Strategien hinweg. Few-Shot-Prompting brachte im Durchschnitt nur +0,8 Prozentpunkte, was die Forscher als statistisch nicht vom Rauschen unterscheidbar beschreiben.
Agenten-Systeme wie Claude Code und Codex schnitten 2-3 mal besser ab als nicht-agentische Ansätze, aber diese Verbesserung kam hauptsächlich von schärferen Feedback-Schleifen und besserem Kontextmanagement, nicht von Belegen für tatsächlichen Denktransfer.
Fehleranalyse
Die Fehleraufschlüsselung zeigt interessante Muster:
- Bei Brainfuck (das online etwas präsent ist) konnten Modelle gültige Syntax erzeugen, scheiterten aber an der Logik
- Bei Whitespace (das fast keine Trainingsdaten hat) konnten Modelle nicht einmal gültige Programme erzeugen
Dies zeigt eine deutliche Kluft zwischen der Leistung der Modelle bei Sprachen mit etwas Vor-Trainings-Daten gegenüber solchen mit praktisch keinen.
Zweck und Verfügbarkeit
Der Benchmark zielt darauf ab, Bewertungen zu schaffen, bei denen hohe Punktzahlen tatsächlich schwer zu fälschen sind, und geht damit über bloß schwierigere Probleme in gängigen Sprachen wie Python hinaus. Die Forscher schlagen vor, dass dieser Ansatz Bewertungen schafft, bei denen der wirtschaftliche Anreiz, den Benchmark zu manipulieren, nicht existiert und der einzige Weg zu guter Leistung echtes Lernen zur Verallgemeinerung ist.
EsoLang-Bench ist als Vorlage für andere verfügbar, um darauf aufzubauen, sei es durch neue Sprachen, neue Problemtypen oder völlig andere Bereiche außerhalb der Verteilung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

devopsiphai: Open-Source-Claude-Code prüft die Betriebsgesundheit in 6 Phasen
devopsiphai ist eine Open-Source-Claude-Code-Fähigkeit, die die Betriebsbereitschaft von Produktionsprojekten mithilfe eines 6-Phasen-Prozesses und des ARC-Frameworks überprüft und dabei Buchstabennoten sowie eine strukturierte TODO.md mit aufwandgeschätzten Aufgaben ausgibt.

Symphony-Workflow-Automatisierungstool arbeitet mit Claude Code zusammen.
Ein Entwickler hat die Symphony-Spezifikation mit Claude Code zum Laufen gebracht, um Ticket-zu-PR-Workflows zu automatisieren, zunächst mit Node/TypeScript, aber mit dem Hinweis, dass Elixir möglicherweise besser geeignet wäre. Das Tool erfordert eine separate API-Schlüssel-Einrichtung und Abrechnung über Claude-Abonnements hinaus.

Entwickler baut Terminal-Statusleiste zur Überwachung der Claude-Code-Sitzungslimits nach unerwartetem Abbruch
Ein Entwickler hat eine Python-Terminal-Statuszeile erstellt, die die Sitzungsnutzung von Claude Code live anzeigt, nachdem er mitten in einer Refaktorisierung ohne Vorwarnung abgeschnitten wurde. Das Tool verwendet bestehende Sitzungen und erfordert keinen API-Schlüssel.

Open-Source-KI-Modell-Stack für kostengünstigen Claude-Ersatz
Ein Reddit-Nutzer teilt einen funktionierenden KI-Modell-Stack, der Open-Source-Modelle wie Llama 3.3 70b und DeepSeek R1 32b für die lokale Ausführung nutzt und die monatlichen KI-Kosten von über £60 auf unter £3 senkt, indem 90% der Aufgaben an kostenlose Modelle weitergeleitet werden.