MCP로 AI 에이전트-커널 트레이스포인트 연결하기: 두 가지 접근법

모델 컨텍스트 프로토콜(MCP)은 AI 에이전트와 인프라스트럭처 데이터 사이의 인터페이스로 자리 잡아가고 있습니다. 2026년 3월, 세 가지 중요한 발전이 이 추세를 부각시켰습니다: Datadog는 실시간 가시성 데이터를 AI 에이전트에 연결하여 자동 감지 및 수정을 가능하게 하는 MCP 서버를 출시했고, Qualys는 MCP 서버를 'AI를 위한 새로운 그림자 IT'라고 지칭하는 보안 분석을 발표했으며, Microsoft Retina는 eBPF 기반 쿠버네티스 네트워크 가시성을 시연했습니다.

MCP 가시성에 대한 두 가지 접근 방식

MCP를 통해 가시성 데이터를 AI 에이전트에 연결하는 두 가지 방법이 있습니다:

접근 방식 1: 기존 플랫폼 래핑 - Datadog의 전략은 이미 수집 및 집계된 기존 메트릭, 로그, 트레이스를 가져와 MCP 도구를 통해 노출합니다. AI 에이전트는 대시보드 API를 쿼리하여 사전 처리된 데이터를 받고 이를 기반으로 작동합니다. 이는 성숙한 가시성 스택을 보유하고 그 위에 AI 기반 자동화를 원하는 팀에 적합합니다.
접근 방식 2: MCP 네이티브 가시성 구축 - 기존 플랫폼을 래핑하는 대신, uprobes를 통해 시스템 호출을 추적하고 결과를 SQLite에 저장하며 모든 것을 MCP 도구를 통해 노출하는 eBPF 에이전트를 구축합니다. MCP 인터페이스는 어댑터 레이어가 아닌 기본 인터페이스가 됩니다.

실제 적용 사례: MCP 네이티브 가시성

이 글은 첫 번째 토큰이 기준보다 14.5배 더 오래 걸린 vLLM TTFT 회귀를 추적하는 구체적인 예를 자세히 설명합니다. 트레이스 데이터베이스는 모든 CUDA API 호출, 커널 컨텍스트 전환 및 메모리 할당을 캡처했습니다. Claude가 MCP 서버에 연결하고 이 데이터베이스를 로드하면 네 가지 특정 도구를 사용할 수 있습니다:

get_trace_stats - 전체 트레이스 요약 보기: 12,847개의 CUDA 이벤트, 4개의 인과 체인, 총 GPU 시간
get_causal_chains - 지연 시간이 급증한 이유를 설명하는 인과 체인을 일반 영어로 읽기
run_sql - 원시 이벤트 데이터에 대해 맞춤형 쿼리 실행 (예: "100ms 이상의 모든 cudaMemcpyAsync 호출 보여주기")
get_stacks - 플래그가 지정된 모든 이벤트에 대한 호출 스택 검사

Claude는 30초 이내에 근본 원인을 식별했습니다: logprobs 계산이 디코드 루프를 차단하여 핵심 경로에서 256배의 속도 저하를 일으켰습니다. 이 근본 원인은 집계된 메트릭에서는 보이지 않았고, 특정 CUDA API 호출 간의 원시 인과 체인에서만 확인할 수 있었습니다.

보안 고려 사항

Qualys는 MCP 서버의 53% 이상이 인증을 위해 정적 비밀번호에 의존한다는 사실을 발견했으며, MCP 서버에 가시성을 추가할 것을 권장했습니다: 기능 발견 이벤트 로깅, 호출 패턴 모니터링, 이상 징후에 대한 경고 등. GPU 인프라스트럭처에 접근하는 MCP 서버의 경우, 공격 표면에는 타이밍 정보, 메모리 레이아웃 및 모델 아키텍처 세부 정보가 포함됩니다.

Ingero의 구현에서는 모든 MCP 도구 호출이 GPU 이벤트를 캡처하는 동일한 eBPF 인프라스트럭처를 사용하여 추적되며, 별도의 로깅 레이어가 아닌 통합된 가시성 파이프라인을 생성합니다.

📖 전체 소스 읽기: HN AI Agents