EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen

✍️ OpenClawRadar📅 Veröffentlicht: 16. März 2026🔗 Source
EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen
Ad

EsoLang-Bench ist ein neuer Programmier-Benchmark, der testen soll, ob große Sprachmodelle Probleme tatsächlich durchdacht lösen oder lediglich Muster aus ihren Trainingsdaten abgleichen. Der Benchmark nutzt exotische Programmiersprachen, die in Trainingsdaten kaum vorkommen.

Benchmark-Design

Der Benchmark verwendet fünf exotische Programmiersprachen: Brainfuck, Befunge-98, Whitespace, Unlambda und Shakespeare. Diese Sprachen wurden ausgewählt, weil sie in typischen Vor-Trainings-Pipelines praktisch keine Trainingsdaten haben. Der Benchmark enthält dieselben algorithmischen Probleme wie HumanEval im gleichen Schwierigkeitsbereich, nur in diese exotischen Sprachen übersetzt.

Testmethodik

Die Forscher testeten fünf Modelle: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B und Kimi K2. Sie verwendeten fünf Prompting-Strategien, darunter:

  • Selbstgestütztes Scaffolding
  • Coder-Kritiker-Paare
  • ReAct-Pipeline

Ergebnisse

Das beste Einzelergebnis war 11,2 % bei Befunge-98 mit selbstgestütztem Scaffolding. Probleme mittlerer, hoher und sehr hoher Schwierigkeit blieben bei 0 % über alle Modelle, Sprachen und Strategien hinweg. Few-Shot-Prompting brachte im Durchschnitt nur +0,8 Prozentpunkte, was die Forscher als statistisch nicht vom Rauschen unterscheidbar beschreiben.

Agenten-Systeme wie Claude Code und Codex schnitten 2-3 mal besser ab als nicht-agentische Ansätze, aber diese Verbesserung kam hauptsächlich von schärferen Feedback-Schleifen und besserem Kontextmanagement, nicht von Belegen für tatsächlichen Denktransfer.

Ad

Fehleranalyse

Die Fehleraufschlüsselung zeigt interessante Muster:

  • Bei Brainfuck (das online etwas präsent ist) konnten Modelle gültige Syntax erzeugen, scheiterten aber an der Logik
  • Bei Whitespace (das fast keine Trainingsdaten hat) konnten Modelle nicht einmal gültige Programme erzeugen

Dies zeigt eine deutliche Kluft zwischen der Leistung der Modelle bei Sprachen mit etwas Vor-Trainings-Daten gegenüber solchen mit praktisch keinen.

Zweck und Verfügbarkeit

Der Benchmark zielt darauf ab, Bewertungen zu schaffen, bei denen hohe Punktzahlen tatsächlich schwer zu fälschen sind, und geht damit über bloß schwierigere Probleme in gängigen Sprachen wie Python hinaus. Die Forscher schlagen vor, dass dieser Ansatz Bewertungen schafft, bei denen der wirtschaftliche Anreiz, den Benchmark zu manipulieren, nicht existiert und der einzige Weg zu guter Leistung echtes Lernen zur Verallgemeinerung ist.

EsoLang-Bench ist als Vorlage für andere verfügbar, um darauf aufzubauen, sei es durch neue Sprachen, neue Problemtypen oder völlig andere Bereiche außerhalb der Verteilung.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

devopsiphai: Open-Source-Claude-Code prüft die Betriebsgesundheit in 6 Phasen
Werkzeuge

devopsiphai: Open-Source-Claude-Code prüft die Betriebsgesundheit in 6 Phasen

devopsiphai ist eine Open-Source-Claude-Code-Fähigkeit, die die Betriebsbereitschaft von Produktionsprojekten mithilfe eines 6-Phasen-Prozesses und des ARC-Frameworks überprüft und dabei Buchstabennoten sowie eine strukturierte TODO.md mit aufwandgeschätzten Aufgaben ausgibt.

OpenClawRadar
Symphony-Workflow-Automatisierungstool arbeitet mit Claude Code zusammen.
Werkzeuge

Symphony-Workflow-Automatisierungstool arbeitet mit Claude Code zusammen.

Ein Entwickler hat die Symphony-Spezifikation mit Claude Code zum Laufen gebracht, um Ticket-zu-PR-Workflows zu automatisieren, zunächst mit Node/TypeScript, aber mit dem Hinweis, dass Elixir möglicherweise besser geeignet wäre. Das Tool erfordert eine separate API-Schlüssel-Einrichtung und Abrechnung über Claude-Abonnements hinaus.

OpenClawRadar
Entwickler baut Terminal-Statusleiste zur Überwachung der Claude-Code-Sitzungslimits nach unerwartetem Abbruch
Werkzeuge

Entwickler baut Terminal-Statusleiste zur Überwachung der Claude-Code-Sitzungslimits nach unerwartetem Abbruch

Ein Entwickler hat eine Python-Terminal-Statuszeile erstellt, die die Sitzungsnutzung von Claude Code live anzeigt, nachdem er mitten in einer Refaktorisierung ohne Vorwarnung abgeschnitten wurde. Das Tool verwendet bestehende Sitzungen und erfordert keinen API-Schlüssel.

OpenClawRadar
Open-Source-KI-Modell-Stack für kostengünstigen Claude-Ersatz
Werkzeuge

Open-Source-KI-Modell-Stack für kostengünstigen Claude-Ersatz

Ein Reddit-Nutzer teilt einen funktionierenden KI-Modell-Stack, der Open-Source-Modelle wie Llama 3.3 70b und DeepSeek R1 32b für die lokale Ausführung nutzt und die monatlichen KI-Kosten von über £60 auf unter £3 senkt, indem 90% der Aufgaben an kostenlose Modelle weitergeleitet werden.

OpenClawRadar