Dirac: オープンソースエージェントがTerminalBenchで65.2%を達成、より安価でオープンに

Diracはオープンソースのコーディングエージェントで、TerminalBench 2.0のgemini-3-flash-previewリーダーボードで65.2%のスコアを記録し、Googleの公式ベースライン(47.6%)や従来トップだったクローズドソースエージェントJunie CLI(64.3%)を上回りました。この実行は完全にオープンソースで行われ、ベンチマーク専用のAGENTS.mdファイルやその他の不正メカニズムは使用されていません。メンテナーは8日前にリーダーボードへのPRを提出しましたが、バックログのためまだ返答を受け取っていません。
主な特徴
- ハッシュアンカーによる並列編集:効率的で正確なコード変更を実現。
- AST操作:コードを構造的に理解し変換。
- コンテキストの厳選:コンテキストを絞り込み、精度向上とコスト削減(他のエージェントと比較して平均64.8%のコスト削減を実現)。
- MCP非使用:シンプルなツール構成。
TerminalBench 2.0の結果
gemini-3-flash-previewでスコアを記録:65.2%(Googleの47.6%、Junie CLIの64.3%に対して)。この実行はリーダーボード準拠の方法(リソースやタイムアウトの変更なし)で行われました。すべてのコードはGitHub上にあり、実行されたものと公開されているものに差異はありません。
コスト比較
Diracの8つのベンチマーク(Cline、Kilo、Ohmypi、Opencode、Pimono、Rooとの比較)におけるタスクあたりの平均コストは$0.18で、次点の$0.38と比較して64.8%の削減(2.8倍のコスト効率)です。例えば、Task1(transformer、8ファイル)では$0.13(Clineは$0.37)、Task6(transformer、25ファイル)では$0.34(Ohmypiは$0.94)でした。
インストールと使用方法
リポジトリをクローンし、README.mdのセットアップ手順に従ってください。エージェントはCLIツールとして動作します。Node.jsと選択したモデルのAPIキー以外に特別なセットアップは不要です。
📖 詳しくはソース記事をご覧ください: HN AI Agents
👀 See Also

ClawRelay:自動フェイルオーバー機能を備えたmacOSネイティブのOpenAI互換LLMプロキシ
ClawRelayは、macOS 15+上でOpenAI互換のHTTPサーバーを実行し、LLMプロバイダー間の自動フェイルオーバーを提供します。OpenAI、Groq、Nvidia NIMs、Ollama、および/v1/chat/completionsエンドポイントを持つあらゆるサービスをサポートしています。

SkyClaw: Rustベースの自律型AIエージェントランタイム
SkyClawはRustで構築された自律AIエージェントランタイムで、7.1MBのバイナリサイズ、14MBのアイドル時RAM使用量、1秒未満の起動時間を実現しています。自律性、堅牢性、そして残酷な効率性を含む5つのエンジニアリング原則に基づいて動作します。

AutoDream:安全機能を備えたClaude Code用11フックメモリシステム
AutoDreamは、Claude Codeにプロジェクトメモリの永続性とコマンドの安全性を追加するオープンソースツールです。6つのイベントにまたがる11個のフックを使用して、コンテキストの注入、危険なコマンドのブロック、/compact操作の生存を実現します。

C#とローカルLLMで自律型研究エージェントを構築する
C#で開発された研究エージェントは、Ollamaとllama3.1:8bを使用してローカルLLMによるURL処理を自動化し、ウェブ検索から構造化されたマークダウンレポートを生成します。