LogClaw: Kubernetes 로그로 90초 내 티켓 자동 생성 SRE

LogClaw는 사용자의 VPC에 배포되고 로그 이상으로부터 자동으로 인시던트 티켓을 생성하는 오픈소스 AI SRE 플랫폼입니다. Datadog와 같은 도구들로부터 모호한 알림에 좌절한 Robel이 구축한 이 플랫폼은 수동 개입 없이 로그 노이즈를 실행 가능한 티켓으로 전환하는 데 중점을 둡니다.

작동 방식

이 시스템은 OpenTelemetry를 통해 로그를 수집하고 단순한 임계값 경고가 아닌 신호 기반 복합 점수를 사용하여 이상을 감지합니다. OOM, 충돌, 자원 고갈, 의존성 실패, DB 데드락, 타임아웃, 연결 오류, 인증 실패 등 8가지 실패 유형 신호를 추출합니다. 이들은 통계적 z-점수 분석, 폭발 반경, 오류 속도, 재발 신호와 결합되어 복합 점수로 통합됩니다.

중요한 실패(OOM, 패닉)는 즉시 감지를 유발합니다. 이상이 확인되면, 5계층 추적 상관 엔진이 traceId별로 로그를 그룹화하고, 서비스 의존성을 매핑하며, 오류 전파 연쇄를 추적하고, 영향받은 서비스들 간의 폭발 반경을 계산합니다.

그런 다음 Ticketing Agent는 상관된 타임라인을 가져와 LLM으로 보내 근본 원인 분석을 수행하고, Jira, ServiceNow, PagerDuty, OpsGenie, Slack 또는 Zammad에서 중복 제거된 티켓을 생성합니다. 로그 노이즈부터 티켓 제출까지의 전체 루프는 약 90초가 소요됩니다.

아키텍처

LogClaw는 다음 아키텍처를 사용합니다: OTel Collector → Kafka (Strimzi, KRaft 모드) → Bridge (Python, 4개의 동시 스레드: ETL, 이상 감지, OpenSearch 인덱싱, 추적 상관) → OpenSearch + Ticketing Agent.

AI 계층은 완전한 에어갭 배포를 위해 OpenAI, Claude 또는 Ollama를 지원합니다. 모든 것은 테넌트당 단일 Helm 차트로 배포되며, 공유 데이터 플레인 없이 네임스페이스로 격리됩니다.

현재 제한 사항

메트릭과 추적은 아직 지원되지 않습니다 — 이는 로그 전용입니다. 메트릭 지원은 로드맵에 있습니다.
이상 감지는 신호 기반 + 통계적(z-점수를 포함한 복합 점수)이며, 딥 러닝 기반이 아닙니다. 99.8%의 중요한 실패를 포착하지만 아직 미묘한 성능 드리프트 패턴은 감지하지 못합니다.
대시보드는 기능적이지만 기본적입니다. OpenSearch Dashboards가 무거운 작업에 사용됩니다.

배포 및 가격

이 플랫폼은 Apache 2.0 라이선스로 제공됩니다. 셀프 호스팅을 원하지 않는다면 수집된 GB당 $0.30의 관리형 클라우드 버전을 이용할 수 있습니다. Source에 따르면, LogClaw는 Splunk/Datadog 대비 80-90%의 비용 절감을 제공할 수 있으며, 하루 500GB 기준으로 Splunk의 연간 $1.2M 대비 $38K의 관찰 가능성 비용이 발생합니다.

로컬 개발을 위해서는 https://docs.logclaw.ai/local-development에서 문서를 확인할 수 있습니다.

📖 Read the full source: HN AI Agents