Deterministische Compiler-Architektur für LLM-Workflows: Benchmark gegen GPT-4.1

Deterministische Kompilierung für LLM-Workflows

Ein Entwickler experimentiert mit einer deterministischen Kompilierungsarchitektur für strukturierte LLM-Workflows. Anstatt das Modell alles autoregressiv planen und ausführen zu lassen, kompiliert das System einen Workflow-Graphen vorab unter Verwendung typisierter Knotenregister, Parameterverträge und statischer Validierung.

Das Ziel ist es, die Fehlerakkumulation zu verhindern, die normalerweise in tieferen mehrstufigen Ketten auftritt. Dieser Ansatz stellt einen Wechsel von der rein autoregressiven Ausführung zu einem strukturierteren, vorab kompilierten Workflow-System dar.

Benchmark-Ergebnisse

Der Entwickler führte Benchmarks bei Workflow-Tiefen von 3-12+ Knoten durch und verglich sie mit Baseline-Prompting bei GPT-4.1 und Claude Sonnet 4.6:

3-5 Knoten Workflows: Compiler: 1.00, GPT-4.1 Baseline: 0.76, Claude Sonnet 4.6: 0.60
5-8 Knoten: Compiler: 1.00, GPT-4.1: 0.72, Claude: 0.46
8-10 Knoten: Compiler: 0.88, GPT-4.1: 0.68, Claude: 0.54
10+ Knoten: Compiler: 0.96, GPT-4.1: 0.76, Claude: 0.72

Die Compiler-Architektur hielt bis zu 8 Knoten eine perfekte Leistung aufrecht, zeigte nur eine geringfügige Verschlechterung bei 8-10 Knoten und erholte sich dann bei 10+ Knoten wieder auf nahezu perfekte Leistung. Im Gegensatz dazu zeigten sowohl GPT-4.1 als auch Claude eine konsistente Leistungsverschlechterung mit zunehmender Workflow-Tiefe.

Projektstatus

Das Paper wird bald auf arXiv erscheinen, aber die Projektseite wurde frühzeitig für diejenigen veröffentlicht, die sich für den Ansatz interessieren oder die Evaluation kritisieren möchten. Die Projektseite ist verfügbar unter: https://prnvh.github.io/compiler.html

Dieser Ansatz könnte besonders nützlich für Entwickler sein, die komplexe, mehrstufige KI-Workflows erstellen, bei denen die Fehlerakkumulation in traditionellen autoregressiven Ansätzen problematisch wird. Das deterministische Kompilierungsmodell bietet ein vorhersehbareres Verhalten und potenziell bessere Fehlerbehandlung in komplexen Ketten.

📖 Read the full source: r/LocalLLaMA

Deterministische Compiler-Architektur für mehrstufige LLM-Workflows zeigt starke Benchmark-Ergebnisse

Deterministische Kompilierung für LLM-Workflows

Benchmark-Ergebnisse

Projektstatus

👀 Siehe auch

OpenClaw-Entwickler sucht nach Killer-Anwendungsfällen nach 900 Nutzertests

OpenJet v0.4: Lokaler Coding-Agent ohne Konfiguration mit llama.cpp-Backend

ClawControl 1.7.1 verbessert die Nachrichten-Zuverlässigkeit und Medienunterstützung für OpenClaw.

Geschmacksknospengedächtnis: Reversible Agentenspeicherung mittels hyperdimensionaler Rechenvektoren