Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert

✍️ OpenClawRadar📅 Publié: April 27, 2026🔗 Source
Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert
Ad

Dirac est un agent de codage open-source qui vient de prendre la tête du classement TerminalBench 2.0 pour gemini-3-flash-preview avec un score de 65,2 %, battant le socle officiel de Google de 47,6 % et le précédent meilleur agent propriétaire Junie CLI avec 64,3 %. L'exécution a été entièrement open-source, sans fichiers AGENTS.md spécifiques au benchmark ni autre mécanisme de triche. Le mainteneur a soumis une pull request au classement il y a 8 jours, mais n'a pas reçu de réponse en raison du retard.

Fonctionnalités clés

  • Éditions parallèles ancrées par hachage pour des modifications de code efficaces et précises.
  • Manipulation AST pour comprendre et transformer le code structurellement.
  • Curatation du contexte pour garder un contexte bien ciblé, améliorant la précision et réduisant les coûts — revendique une réduction moyenne des coûts de 64,8 % par rapport aux autres agents.
  • Pas de MCP (Model Context Protocol) — un outillage simple.
Ad

Résultats TerminalBench 2.0

Score sur gemini-3-flash-preview : 65,2 % contre 47,6 % pour Google et 64,3 % pour Junie CLI. L'exécution a été conforme au classement (aucune modification des ressources ou des délais d'attente). Tout le code est sur GitHub — aucune différence entre ce qui a été exécuté et ce qui est public.

Comparaison des coûts

Le coût moyen par tâche de Dirac sur 8 benchmarks (face à Cline, Kilo, Ohmypi, Opencode, Pimono, Roo) était de 0,18 $, contre 0,38 $ pour le suivant. Soit une réduction de 64,8 %, ou 2,8 fois moins cher. Par exemple, Task1 (transformers, 8 fichiers) a coûté 0,13 $ contre 0,37 $ pour Cline. Task6 (transformers, 25 fichiers) a coûté 0,34 $ contre 0,94 $ pour Ohmypi.

Installation et utilisation

Clonez le dépôt et suivez les instructions d'installation dans le README.md. L'agent fonctionne comme un outil en ligne de commande. Aucune configuration particulière autre que Node.js et les clés API pour le modèle choisi.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Exécution d'OpenClaw et de Codex CLI en mode natif sur Android via l'APK AnyClaw
Tools

Exécution d'OpenClaw et de Codex CLI en mode natif sur Android via l'APK AnyClaw

Un développeur a empaqueté OpenClaw et Codex CLI dans un APK Android nommé AnyClaw, permettant à la passerelle et à l'interface de contrôle de fonctionner localement sur les appareils Android ARM64 7.0+ sans root. Le projet a nécessité la compilation des dépendances à partir des sources et le correctif de plusieurs composants pour gérer les contraintes spécifiques à Android.

OpenClawRadar
fr: Le-gars-du-savoir : Transformez votre bibliothèque en tuteur avec les compétences de Claude Code
Tools

fr: Le-gars-du-savoir : Transformez votre bibliothèque en tuteur avec les compétences de Claude Code

Un ensemble de compétences Claude Code qui ingère vos livres PDF/EPUB localement et vous permet de poser des questions, d'apprendre sujet par sujet ou d'obtenir des antisèches — le tout avec des citations dans votre bibliothèque.

OpenClawRadar
Discussion Reddit : Les fichiers Identity.md sont insuffisants pour la stabilité de la personnalité des employés IA sans une architecture de modèle appropriée.
Tools

Discussion Reddit : Les fichiers Identity.md sont insuffisants pour la stabilité de la personnalité des employés IA sans une architecture de modèle appropriée.

Une discussion sur Reddit soutient que l'ajustement des fichiers identity.md pour prévenir la contamination de personnalité dans les équipes d'employés IA est inefficace si l'architecture sous-jacente du modèle ne fait que simuler la séparation des rôles. Le post recommande d'utiliser le backend Minimax M2.7, qui a intégré la conscience des limites directement dans l'entraînement de base à travers plus de 100 cycles d'auto-évolution.

OpenClawRadar
Les crochets de code Claude empêchent les interférences entre les onglets Chrome lors de sessions multiples.
Tools

Les crochets de code Claude empêchent les interférences entre les onglets Chrome lors de sessions multiples.

Un développeur a créé trois hooks (session-start, capture-tab-id, enforce-tab-id) qui épinglent chaque session Claude Code à son propre onglet Chrome, empêchant les sessions d'accéder accidentellement aux onglets d'autres sessions lors des exécutions de tests et des remplissages de formulaires.

OpenClawRadar