에이전트-Xray: 추적 로그에서 AI 에이전트 실패를 디버깅하는 오픈소스 도구

✍️ OpenClawRadar📅 게시일: April 15, 2026🔗 Source
에이전트-Xray: 추적 로그에서 AI 에이전트 실패를 디버깅하는 오픈소스 도구
Ad

Agent-Xray는 AI 에이전트의 추적 로그를 분석하여 디버깅하는 오픈소스 도구입니다. 이 도구는 코드는 정상적으로 실행되지만 에이전트가 잘못된 결정을 내리는 상황—예를 들어 오류 메시지가 올바른 도구를 제안함에도 불구하고 계속해서 잘못된 도구를 호출하는 경우—처럼 명확한 오류 없이 작업이 실패하는 문제를 해결하기 위해 만들어졌습니다.

주요 기능

이 도구는 추적 로그를 읽고 에이전트 실패에 대한 구조적 등급 평가 및 근본 원인 분류를 제공합니다. 각 단계에서 에이전트가 무엇을 보고 있었는지 재구성하여 잘못된 결정이 왜 내려졌는지 이해하는 데 도움을 줍니다.

실패 범주

  • spin
  • tool_bug
  • early_abort

강제 모드

제작자에 따르면 가장 중요한 기능은 강제 모드입니다. 에이전트 버그를 수정한 후, 이 모드는 수정 사항이 합법적인지 확인하기 위해 적대적 도전을 실행합니다. 다음을 확인합니다:

  • 하드코딩된 반환값
  • 약화된 단언문

이는 수정 사항이 특정 테스트 작업에서는 작동하지만 실제로는 취약하거나, 에이전트가 테스트를 속이는 방법을 배우는 문제를 해결합니다.

워크플로우 통합

이 도구는 MCP 도구로 실행되어 Claude Code가 직접 사용할 수 있습니다. 소스에서 설명한 일반적인 워크플로우:

  1. Claude Code에게 에이전트 추적을 분류하라고 지시
  2. 가장 심각한 실패를 찾음
  3. 에이전트가 본 내용을 재생
  4. 수정 사항을 제안
  5. 강제 모드가 수정 사항이 합법적인지 확인

제작자는 이를 "에이전트가 에이전트를 디버깅한다"고 설명합니다.

Ad

기술적 세부사항

  • 설치: pip install agent-xray
  • 빠른 시작: agent-xray quickstart (자체 데이터 없이 테스트할 수 있는 샘플 추적 포함)
  • 라이선스: MIT
  • 의존성 없음
  • 오프라인 실행 가능
  • OpenAI, Anthropic, LangChain, CrewAI, OpenTelemetry 추적과 호환
  • 프로젝트 기간: 게시 시점 기준 약 9일

사용 사례

이 도구는 전통적인 오류나 스택 추적을 생성하지 않는 실패를 디버깅해야 하는 AI 에이전트 작업 개발자를 위한 것입니다—에이전트가 올바른 도구와 정보에 접근할 수 있음에도 불구하고 잘못된 결정을 내리는 상황입니다.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

빈 에이전트OS: Qwen 3.5 9B를 사용해 RTX 5070에서 로컬로 클로드 유사 에이전트 실행하기
Tools

빈 에이전트OS: Qwen 3.5 9B를 사용해 RTX 5070에서 로컬로 클로드 유사 에이전트 실행하기

로컬 하드웨어에서 Qwen 3.5 9B를 실행하는 자기 수정 에이전트 시스템이 Claude API 비용을 50% 절감합니다. 반복 테스트와 자기 개선 루프를 사용하여 사람 개입 없이 소프트웨어를 개발합니다.

OpenClawRadar
불소리 벤치마크 테스트: LLM의 무의미한 프롬프트에 대한 저항력
Tools

불소리 벤치마크 테스트: LLM의 무의미한 프롬프트에 대한 저항력

Bullshit 벤치마크는 AI 모델이 명백한 허튼소리 프롬프트를 식별하고 반박하는지, 자신만만하게 잘못된 답변을 생성하는지 평가합니다. 결과에 따르면 Claude 모델이 허튼소리 질문을 감지하는 데 Gemini 모델보다 훨씬 더 나은 성능을 보입니다.

OpenClawRadar
OmniCoder-9B: 425K 에이전트 궤적으로 미세 조정된 90억 파라미터 코딩 에이전트
Tools

OmniCoder-9B: 425K 에이전트 궤적으로 미세 조정된 90억 파라미터 코딩 에이전트

테슬레이트가 Qwen3.5-9B의 하이브리드 아키텍처를 기반으로 파인튜닝한 90억 파라미터 코딩 에이전트 모델 OmniCoder-9B를 공개했습니다. 이 모델은 Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex, Gemini 3.1 Pro의 425,000개 이상의 정제된 에이전트 코딩 트랙을 학습했습니다.

OpenClawRadar
OpenRoom: AI 에이전트 기술 시각화를 위한 웹 기반 데스크톱 GUI
Tools

OpenRoom: AI 에이전트 기술 시각화를 위한 웹 기반 데스크톱 GUI

OpenRoom은 웹 기반 데스크톱 환경으로, AI 에이전트가 작동하며 채팅 상호작용 중 일기와 파일 같은 시스템 상태의 실시간 업데이트를 제공하고, 다중 봇 상호작용을 위한 라이브스트림 모드를 갖추고 있습니다.

OpenClawRadar