Dirac: Open-Source-Agent erreicht mit 65,2 % Platz 1 bei TerminalBench, günstiger und offen

Dirac ist ein Open-Source-Coding-Agent, der gerade die TerminalBench 2.0 Bestenliste für gemini-3-flash-preview mit 65,2 % anführt – und damit Googles offizielle Basislinie von 47,6 % sowie den bisherigen Spitzenreiter unter den Closed-Source-Agenten Junie CLI mit 64,3 % übertrifft. Der Durchlauf erfolgte vollständig quelloffen, ohne benchmarkspezifische AGENTS.md-Dateien oder andere Manipulationen. Der Maintainer reichte vor 8 Tagen einen PR für die Bestenliste ein, erhielt aber aufgrund des Rückstaus noch keine Antwort.
Wichtige Funktionen
- Hash-verankerte parallele Änderungen für effiziente und präzise Codeänderungen.
- AST-Manipulation zum strukturellen Verständnis und zur Transformation von Code.
- Kontextaufbereitung, um den Kontext eng fokussiert zu halten, was die Genauigkeit verbessert und Kosten senkt – durchschnittlich 64,8 % Kosteneinsparung gegenüber anderen Agenten.
- Kein MCP (Model Context Protocol) – unkomplizierte Werkzeuge.
TerminalBench 2.0 Ergebnisse
Erzielt auf gemini-3-flash-preview: 65,2 % gegenüber Googles 47,6 % und Junie CLIs 64,3 %. Der Durchlauf erfolgte regelkonform (keine Ressourcen- oder Timeout-Änderungen). Der gesamte Code ist auf GitHub – es gibt keinen Unterschied zwischen dem Ausgeführten und dem Öffentlichen.
Kostenvergleich
Diracs durchschnittliche Kosten pro Aufgabe über 8 Benchmarks (gegen Cline, Kilo, Ohmypi, Opencode, Pimono, Roo) betrugen $0,18, während der nächstbeste bei $0,38 lag. Das ist eine Reduzierung um 64,8 % bzw. 2,8-mal günstiger. Beispielsweise kostete Task1 (transformer, 8 Dateien) $0,13 im Vergleich zu Clines $0,37. Task6 (transformer, 25 Dateien) kostete $0,34 gegenüber Ohmypis $0,94.
Installation & Nutzung
Klonen Sie das Repo und folgen Sie den Einrichtungsanweisungen in der README.md. Der Agent wird als CLI-Tool ausgeführt. Keine besondere Einrichtung außer Node.js und API-Schlüsseln für das gewählte Modell erforderlich.
📖 Lesen Sie die vollständige Quelle: HN AI Agents
👀 Siehe auch

Claude Code unterstützt jetzt über 240 Modelle über das NVIDIA NIM Gateway – darunter Nemotron-3 120B für agentisches Programmieren
Claude Code kann während einer Sitzung über den Befehl /model auf über 240 NVIDIA NIM Modelle umschalten. Die Denkvariante von Nemotron-3 Super 120B zeigt starke Ergebnisse bei der Umstrukturierung mehrerer Dateien und agentischen Aufgaben.

ClaudeDesk v4.2–4.3 führt die Visualisierung von Agententeams und die Repository-Atlas-Engine ein.
ClaudeDesk v4.2–4.3 bietet eine Desktop-GUI zur Verwaltung von Agententeams für die Claude Code CLI und optimiert die Sitzungsanpassung mit dem Repository Atlas Engine.

Audio-Ingenieur baut Mix-Analysetool mit Claude Code
Ein Toningenieur hat ein Tool entwickelt, das Audiomischungen mithilfe der Web Audio API und Claude analysiert, um spezifisches Feedback zu Problemen wie matten Tieftonmitten, fehlendem Headroom und untergehenden Gesangsspuren zu geben. Das Tool bietet einen kostenlosen Tarif für schnelle Analysen und einen kostenpflichtigen Pro-Bericht mit detaillierten Frequenznotizen und Plugin-Empfehlungen.

Brunnfeld Agentic World: Multi-Agenten-Simulation einer mittelalterlichen Wirtschaft ohne Verhaltensvorgaben
Eine TypeScript-Simulation, in der 20 LLM-Agenten autonom in einer mittelalterlichen Dorfwirtschaft handeln, ohne Verhaltensanweisungen, Ziele oder Handelsstrategien. Die Agenten erhalten pro Tick etwa 200 Token-Wahrnehmungen und interagieren über eine deterministische Engine, die Physik, Rezepte und Marktmechaniken verarbeitet.