Dirac: 오픈소스 에이전트, TerminalBench 65.2% 기록, 더 저렴하고 개방적

✍️ OpenClawRadar📅 게시일: April 27, 2026🔗 Source
Dirac: 오픈소스 에이전트, TerminalBench 65.2% 기록, 더 저렴하고 개방적
Ad

Dirac은 오픈소스 코딩 에이전트로, gemini-3-flash-preview에서 65.2%의 점수로 TerminalBench 2.0 리더보드 1위를 차지했습니다. 이는 Google의 공식 기준선(47.6%)과 이전 최고 클로즈드소스 에이전트 Junie CLI(64.3%)를 뛰어넘는 성과입니다. 이 실행은 완전히 오픈소스로 이루어졌으며, 벤치마크별 AGENTS.md 파일이나 기타 치트 메커니즘은 사용되지 않았습니다. 유지관리자가 8일 전에 리더보드에 PR을 제출했지만, 백로그로 인해 아직 응답을 받지 못했습니다.

주요 기능

  • 해시 기반 병렬 편집으로 효율적이고 정확한 코드 변경
  • AST 조작으로 코드 구조 이해 및 변환
  • 컨텍스트 큐레이션으로 컨텍스트를 집중적으로 유지하여 정확도 향상 및 비용 절감 — 다른 에이전트 대비 평균 64.8% 비용 절감 주장
  • MCP(모델 컨텍스트 프로토콜) 미사용 — 직관적인 도구 구성

TerminalBench 2.0 결과

gemini-3-flash-preview에서 측정: 65.2% (Google 47.6%, Junie CLI 64.3% 대비). 리더보드 규정을 준수하는 방식으로 실행되었으며(리소스나 타임아웃 수정 없음). 모든 코드는 GitHub에 공개되어 있으며, 실행된 코드와 공개된 코드 간 차이가 없습니다.

비용 비교

8개 벤치마크(Cline, Kilo, Ohmypi, Opencode, Pimono, Roo 대비)에서 Dirac의 작업당 평균 비용은 $0.18로, 다음으로 저렴한 $0.38보다 64.8% 낮습니다(약 2.8배 저렴). 예: Task1(transformers, 8개 파일)은 $0.13으로 Cline의 $0.37보다 저렴. Task6(transformers, 25개 파일)은 $0.34로 Ohmypi의 $0.94보다 저렴.

설치 및 사용법

리포지토리를 클론하고 README.md의 설정 지침을 따르세요. 에이전트는 CLI 도구로 실행됩니다. Node.js와 선택한 모델의 API 키 외에 특별한 설정은 필요하지 않습니다.

📖 전체 출처: HN AI Agents

Ad

👀 See Also

OpenClaw의 AWS 배포: 자동화에 중점을 둔 접근
Tools

OpenClaw의 AWS 배포: 자동화에 중점을 둔 접근

OpenClaw의 도구는 AWS에 원클릭 배포를 가능하게 하여, AI 코딩 에이전트를 사용하는 개발자들의 클라우드 운영을 단순화합니다.

OpenClawRadar
다중 모드 에이전트 지연 시간을 스크린샷 기록 생략으로 줄이기
Tools

다중 모드 에이전트 지연 시간을 스크린샷 기록 생략으로 줄이기

개발자가 다중 모달 에이전트 요청에서 이전 스크린샷을 생략하고 base64 이미지 데이터를 '[image omitted]' 문자열로 대체하면 성능을 유지하면서 지연 시간을 크게 줄일 수 있다는 사실을 발견했습니다. 이 실험은 Claude를 사용하여 진행되었으며 GitHub에 문서화되었습니다.

OpenClawRadar
FixAI Dev: Claude Haiku를 활용한 엄격한 JSON 계약 기반 소비자 권리 게임
Tools

FixAI Dev: Claude Haiku를 활용한 엄격한 JSON 계약 기반 소비자 권리 게임

한 개발자가 Claude Haiku를 기업 AI로 활용하여 소비자 요청을 부당하게 거부하는 상황을 시뮬레이션하는 브라우저 게임 'FixAI Dev'를 만들었습니다. 플레이어는 실제 소비자 보호 법률을 사용하여 반박하며, 법적으로 타당한 주장을 펼칠수록 AI의 확신도가 떨어집니다.

OpenClawRadar
클로드 코드 개발을 위한 여섯 개의 GitHub 저장소
Tools

클로드 코드 개발을 위한 여섯 개의 GitHub 저장소

레딧 사용자가 Claude Code 프로젝트 향상을 위해 설계된 6개의 GitHub 저장소를 테스트하고 공유했습니다. 여기에는 구조화된 개발, UI 생성, 작업 관리, 메모리, 생태계 탐색 및 워크플로우 자동화 도구가 포함됩니다.

OpenClawRadar