LogClaw Open-Source: AI SRE erstellt Tickets in 90 Sekunden

LogClaw ist eine Open-Source-AI-SRE-Plattform, die in Ihrer VPC bereitgestellt wird und automatisch Incident-Tickets aus Log-Anomalien erstellt. Entwickelt von Robel nach Frustration über vage Alarme von Tools wie Datadog, konzentriert sie sich darauf, Log-Rauschen in handlungsorientierte Tickets ohne manuelles Eingreifen zu verwandeln.

Wie es funktioniert

Das System nimmt Logs über OpenTelemetry auf und erkennt Anomalien mithilfe signalbasierter zusammengesetzter Bewertung anstelle einfacher Schwellenwertalarme. Es extrahiert 8 Fehlertyp-Signale: OOM, Abstürze, Ressourcenerschöpfung, Abhängigkeitsfehler, DB-Deadlocks, Timeouts, Verbindungsfehler und Authentifizierungsfehler. Diese werden mit statistischer Z-Score-Analyse, Ausbreitungsradius, Fehlergeschwindigkeit und Wiederholungssignalen zu einem zusammengesetzten Score kombiniert.

Kritische Fehler (OOM, Panics) lösen sofortige Erkennung aus. Sobald eine Anomalie bestätigt ist, gruppiert eine 5-Schichten-Trace-Korrelations-Engine Logs nach traceId, kartiert Service-Abhängigkeiten, verfolgt Fehlerausbreitungskaskaden und berechnet den Ausbreitungsradius über betroffene Services.

Der Ticketing-Agent zieht dann die korrelierte Timeline, sendet sie an ein LLM für Root-Cause-Analyse und erstellt ein dedupliziertes Ticket auf Jira, ServiceNow, PagerDuty, OpsGenie, Slack oder Zammad. Der gesamte Zyklus von Log-Rauschen zum erstellten Ticket dauert etwa 90 Sekunden.

Architektur

LogClaw verwendet diese Architektur: OTel Collector → Kafka (Strimzi, KRaft-Modus) → Bridge (Python, 4 parallele Threads: ETL, Anomalieerkennung, OpenSearch-Indexierung, Trace-Korrelation) → OpenSearch + Ticketing Agent.

Die AI-Schicht unterstützt OpenAI, Claude oder Ollama für vollständig luftgekoppelte Bereitstellungen. Alles wird mit einem einzigen Helm-Chart pro Mandant bereitgestellt, namespace-isoliert ohne gemeinsame Datenebene.

Aktuelle Einschränkungen

Metriken und Traces werden noch nicht unterstützt – dies ist nur für Logs. Metrik-Unterstützung ist geplant.
Die Anomalieerkennung ist signalbasiert + statistisch (zusammengesetzte Bewertung mit Z-Score), kein Deep Learning. Sie erfasst 99,8 % der kritischen Fehler, erkennt aber noch keine subtilen Leistungsdriftmuster.
Das Dashboard ist funktional aber einfach. OpenSearch Dashboards übernehmen die Hauptarbeit.

Bereitstellung und Preisgestaltung

Die Plattform ist unter Apache 2.0 lizenziert. Eine verwaltete Cloud-Version ist für 0,30 $/GB aufgenommene Daten verfügbar, wenn Sie nicht selbst hosten möchten. Laut Source kann LogClaw 80–90 % Kosteneinsparungen gegenüber Splunk/Datadog bieten, mit jährlichen Observability-Kosten von 38.000 $ gegenüber 1,2 Mio. $ für Splunk bei 500 GB/Tag.

Für die lokale Entwicklung ist Dokumentation verfügbar unter https://docs.logclaw.ai/local-development.

📖 Read the full source: HN AI Agents