MCP를 관측 가능성 인터페이스로: AI 에이전트를 커널 트레이스포인트에 연결하기

모델 컨텍스트 프로토콜(MCP)은 AI 에이전트와 인프라스트럭처 데이터 사이의 인터페이스로 자리 잡아가고 있습니다. 2026년 3월, 세 가지 중요한 발전이 이 추세를 부각시켰습니다: Datadog는 실시간 가시성 데이터를 AI 에이전트에 연결하여 자동 감지 및 수정을 가능하게 하는 MCP 서버를 출시했고, Qualys는 MCP 서버를 'AI를 위한 새로운 그림자 IT'라고 지칭하는 보안 분석을 발표했으며, Microsoft Retina는 eBPF 기반 쿠버네티스 네트워크 가시성을 시연했습니다.
MCP 가시성에 대한 두 가지 접근 방식
MCP를 통해 가시성 데이터를 AI 에이전트에 연결하는 두 가지 방법이 있습니다:
- 접근 방식 1: 기존 플랫폼 래핑 - Datadog의 전략은 이미 수집 및 집계된 기존 메트릭, 로그, 트레이스를 가져와 MCP 도구를 통해 노출합니다. AI 에이전트는 대시보드 API를 쿼리하여 사전 처리된 데이터를 받고 이를 기반으로 작동합니다. 이는 성숙한 가시성 스택을 보유하고 그 위에 AI 기반 자동화를 원하는 팀에 적합합니다.
- 접근 방식 2: MCP 네이티브 가시성 구축 - 기존 플랫폼을 래핑하는 대신, uprobes를 통해 시스템 호출을 추적하고 결과를 SQLite에 저장하며 모든 것을 MCP 도구를 통해 노출하는 eBPF 에이전트를 구축합니다. MCP 인터페이스는 어댑터 레이어가 아닌 기본 인터페이스가 됩니다.
실제 적용 사례: MCP 네이티브 가시성
이 글은 첫 번째 토큰이 기준보다 14.5배 더 오래 걸린 vLLM TTFT 회귀를 추적하는 구체적인 예를 자세히 설명합니다. 트레이스 데이터베이스는 모든 CUDA API 호출, 커널 컨텍스트 전환 및 메모리 할당을 캡처했습니다. Claude가 MCP 서버에 연결하고 이 데이터베이스를 로드하면 네 가지 특정 도구를 사용할 수 있습니다:
get_trace_stats- 전체 트레이스 요약 보기: 12,847개의 CUDA 이벤트, 4개의 인과 체인, 총 GPU 시간get_causal_chains- 지연 시간이 급증한 이유를 설명하는 인과 체인을 일반 영어로 읽기run_sql- 원시 이벤트 데이터에 대해 맞춤형 쿼리 실행 (예: "100ms 이상의 모든 cudaMemcpyAsync 호출 보여주기")get_stacks- 플래그가 지정된 모든 이벤트에 대한 호출 스택 검사
Claude는 30초 이내에 근본 원인을 식별했습니다: logprobs 계산이 디코드 루프를 차단하여 핵심 경로에서 256배의 속도 저하를 일으켰습니다. 이 근본 원인은 집계된 메트릭에서는 보이지 않았고, 특정 CUDA API 호출 간의 원시 인과 체인에서만 확인할 수 있었습니다.
보안 고려 사항
Qualys는 MCP 서버의 53% 이상이 인증을 위해 정적 비밀번호에 의존한다는 사실을 발견했으며, MCP 서버에 가시성을 추가할 것을 권장했습니다: 기능 발견 이벤트 로깅, 호출 패턴 모니터링, 이상 징후에 대한 경고 등. GPU 인프라스트럭처에 접근하는 MCP 서버의 경우, 공격 표면에는 타이밍 정보, 메모리 레이아웃 및 모델 아키텍처 세부 정보가 포함됩니다.
Ingero의 구현에서는 모든 MCP 도구 호출이 GPU 이벤트를 캡처하는 동일한 eBPF 인프라스트럭처를 사용하여 추적되며, 별도의 로깅 레이어가 아닌 통합된 가시성 파이프라인을 생성합니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

클로드 코드 규칙 시행을 위한 계층적 방어 프레임워크
IT 운영 전문가가 CLAUDE.md 프롬프트와 차단 훅이 모두 우회될 수 있다는 사실을 발견한 후 Claude Code 규칙을 강제하기 위해 8계층 방어 프레임워크를 구축했습니다. 이 접근 방식은 사고 조사에서 사용되는 스위스 치즈 모델을 차용하여 우회 방법을 방지합니다.

Shipwright: Claude Code 기반 오픈소스 프로젝트 관리 도구
Shipwright는 Claude Code에서 실행되는 오픈소스 프로젝트 관리 도구로, 44가지 스킬, 7개의 전문화된 에이전트, 16개의 워크플로우를 갖추고 있습니다. 이진 품질 게이트와 복구 플레이북을 포함하며, 엔지니어링 작업 시작 전 자격 증명 레지스트리 감사와 자동화 플랫폼 평가에 사용되었습니다.

memv MCP 서버: AI 에이전트를 위한 지속적 구조화 메모리
memv, 에이전트를 위한 오픈소스 Python 메모리 레이어가 이제 MCP 서버와 함께 제공됩니다. 사용자별 격리 및 LLM 선택적 추출 기능을 갖춘 지속적이고 구조화된 메모리를 위한 5가지 도구를 제공합니다.

CLAUDE.md 구성 관리를 위한 두 가지 Claude 코드 스킬
한 개발자가 CLAUDE.md 설정을 처리하기 위해 두 가지 Claude Code 스킬을 만들었습니다: /cc-init는 새 프로젝트를 위한 간결한 설정을 생성하고, /cc-optimize는 기존 프로젝트의 불필요한 부분과 문제점을 분석합니다. 둘 다 컨텍스트 오버헤드를 줄이고 지시 사항 준수를 개선하는 것을 목표로 합니다.