Dirac Open-Source-Agent: 65,2 % auf TerminalBench 2.0

Dirac ist ein Open-Source-Coding-Agent, der gerade die TerminalBench 2.0 Bestenliste für gemini-3-flash-preview mit 65,2 % anführt – und damit Googles offizielle Basislinie von 47,6 % sowie den bisherigen Spitzenreiter unter den Closed-Source-Agenten Junie CLI mit 64,3 % übertrifft. Der Durchlauf erfolgte vollständig quelloffen, ohne benchmarkspezifische AGENTS.md-Dateien oder andere Manipulationen. Der Maintainer reichte vor 8 Tagen einen PR für die Bestenliste ein, erhielt aber aufgrund des Rückstaus noch keine Antwort.

Wichtige Funktionen

Hash-verankerte parallele Änderungen für effiziente und präzise Codeänderungen.
AST-Manipulation zum strukturellen Verständnis und zur Transformation von Code.
Kontextaufbereitung, um den Kontext eng fokussiert zu halten, was die Genauigkeit verbessert und Kosten senkt – durchschnittlich 64,8 % Kosteneinsparung gegenüber anderen Agenten.
Kein MCP (Model Context Protocol) – unkomplizierte Werkzeuge.

TerminalBench 2.0 Ergebnisse

Erzielt auf gemini-3-flash-preview: 65,2 % gegenüber Googles 47,6 % und Junie CLIs 64,3 %. Der Durchlauf erfolgte regelkonform (keine Ressourcen- oder Timeout-Änderungen). Der gesamte Code ist auf GitHub – es gibt keinen Unterschied zwischen dem Ausgeführten und dem Öffentlichen.

Kostenvergleich

Diracs durchschnittliche Kosten pro Aufgabe über 8 Benchmarks (gegen Cline, Kilo, Ohmypi, Opencode, Pimono, Roo) betrugen $0,18, während der nächstbeste bei $0,38 lag. Das ist eine Reduzierung um 64,8 % bzw. 2,8-mal günstiger. Beispielsweise kostete Task1 (transformer, 8 Dateien) $0,13 im Vergleich zu Clines $0,37. Task6 (transformer, 25 Dateien) kostete $0,34 gegenüber Ohmypis $0,94.

Installation & Nutzung

Klonen Sie das Repo und folgen Sie den Einrichtungsanweisungen in der README.md. Der Agent wird als CLI-Tool ausgeführt. Keine besondere Einrichtung außer Node.js und API-Schlüsseln für das gewählte Modell erforderlich.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

Dirac: Open-Source-Agent erreicht mit 65,2 % Platz 1 bei TerminalBench, günstiger und offen

Wichtige Funktionen

TerminalBench 2.0 Ergebnisse

Kostenvergleich

Installation & Nutzung

👀 Siehe auch

Claude Code unterstützt jetzt über 240 Modelle über das NVIDIA NIM Gateway – darunter Nemotron-3 120B für agentisches Programmieren

ClaudeDesk v4.2–4.3 führt die Visualisierung von Agententeams und die Repository-Atlas-Engine ein.

Audio-Ingenieur baut Mix-Analysetool mit Claude Code

Brunnfeld Agentic World: Multi-Agenten-Simulation einer mittelalterlichen Wirtschaft ohne Verhaltensvorgaben