Agent open-source Dirac domine TerminalBench avec 65,2%

Dirac est un agent de codage open-source qui vient de prendre la tête du classement TerminalBench 2.0 pour gemini-3-flash-preview avec un score de 65,2 %, battant le socle officiel de Google de 47,6 % et le précédent meilleur agent propriétaire Junie CLI avec 64,3 %. L'exécution a été entièrement open-source, sans fichiers AGENTS.md spécifiques au benchmark ni autre mécanisme de triche. Le mainteneur a soumis une pull request au classement il y a 8 jours, mais n'a pas reçu de réponse en raison du retard.

Fonctionnalités clés

Éditions parallèles ancrées par hachage pour des modifications de code efficaces et précises.
Manipulation AST pour comprendre et transformer le code structurellement.
Curatation du contexte pour garder un contexte bien ciblé, améliorant la précision et réduisant les coûts — revendique une réduction moyenne des coûts de 64,8 % par rapport aux autres agents.
Pas de MCP (Model Context Protocol) — un outillage simple.

Résultats TerminalBench 2.0

Score sur gemini-3-flash-preview : 65,2 % contre 47,6 % pour Google et 64,3 % pour Junie CLI. L'exécution a été conforme au classement (aucune modification des ressources ou des délais d'attente). Tout le code est sur GitHub — aucune différence entre ce qui a été exécuté et ce qui est public.

Comparaison des coûts

Le coût moyen par tâche de Dirac sur 8 benchmarks (face à Cline, Kilo, Ohmypi, Opencode, Pimono, Roo) était de 0,18 $, contre 0,38 $ pour le suivant. Soit une réduction de 64,8 %, ou 2,8 fois moins cher. Par exemple, Task1 (transformers, 8 fichiers) a coûté 0,13 $ contre 0,37 $ pour Cline. Task6 (transformers, 25 fichiers) a coûté 0,34 $ contre 0,94 $ pour Ohmypi.

Installation et utilisation

Clonez le dépôt et suivez les instructions d'installation dans le README.md. L'agent fonctionne comme un outil en ligne de commande. Aucune configuration particulière autre que Node.js et les clés API pour le modèle choisi.

📖 Lire la source complète : HN AI Agents

Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert

Fonctionnalités clés

Résultats TerminalBench 2.0

Comparaison des coûts

Installation et utilisation

👀 See Also

Cinq extensions gratuites pour Claude Desktop publiées : Inspector Lite, Graph Lite, Bible Code, Word Graph et Fun Pack.

Aiguille : Un modèle d'appel de fonctions de 26M paramètres fonctionnant à 6000 tok/s sur mobile

Développeur mesure la frustration avec le 'F-Bombs Per Thousand Prompts' sur 44 212 journaux Claude Code

Claude ajoute une fonctionnalité de création de graphiques et diagrammes interactifs