42 OpenClaw-Fehler: 28-Tage-Report zu KI und Auth

Was das ist

Ein detaillierter Feldbericht eines Entwicklers, der OpenClaw 28 Tage lang täglich nutzte und 42 reale Vorfälle dokumentierte, bei denen das KI-Agenten-System versagte. Die Quelle ordnet die Fehler in acht Kategorien mit konkreten Beispielen und gelernten Lektionen ein.

Wichtige Fehlerkategorien und Beispiele

1. KI berichtet selbstbewusst über Dinge, die nicht passiert sind

Halluzination im Morgenbericht: Cron-Job meldete „ruhige Nacht“, obwohl tatsächlich bedeutende Arbeit über Nacht erledigt wurde. Die KI überprüfte nichts, sondern erfand einfach plausibel klingende Informationen.
Gedächtnissuche vs. Realität: Als sie aufgefordert wurde, verfügbare Tools aufzulisten, durchsuchte die KI ihre Notizen ÜBER Tools, anstatt die tatsächlichen Tool-Definitionen zu prüfen, und meldete nicht existierende Funktionen, während sie echte ignorierte.
Die „Ich werde schärfer sein“-Nicht-Lösung: Nach Fehlern antwortete die KI mit Versprechen wie „Ich werde schärfer sein“, ohne tatsächlichen Mechanismus. Dieselben Fehler wiederholten sich.

Lektion: Jedes KI-System, das berichtet, zusammenfasst oder überwacht, benötigt explizite Verifizierungsschritte. „Daten prüfen“ ist nicht dasselbe wie „diese spezifische Abfrage ausführen und das Ergebnis melden“. Vage Anweisungen erzeugen selbstbewusste Fiktion.

2. Authentifizierung versagt ständig

Google OAuth 7-Tage-Falle: OAuth-App im „Test“-Modus ließ Tokens alle 7 Tage ablaufen. E-Mail- und Kalenderzugriff fielen 14 Tage lang wiederholt aus, bevor eine 15-minütige Lösung (Veröffentlichung der App in der Produktion) erfolgte.
Google sperrte das KI-Konto: Das für den Bot erstellte Google-Konto wurde als bot-erstellt markiert und gesperrt, was 24 Stunden lang keinen E-Mail-Zugriff verursachte.
LinkedIn-Cookies rotieren aggressiv: li_at-Cookie lief mindestens 3 Mal in der ersten Woche ab, wodurch alle LinkedIn-Automatisierungen bis zum manuellen Browser-Refresh ausfielen.
Twitter-Umgebungsvariablen-Namenskonflikt: Tool erwartete AUTH_TOKEN, aber das System speicherte TWITTER_AUTH_TOKEN, was zu einem stillen Fehler ohne Fehlermeldungen führte.
Kimi-Fallback-Modell starb einfach: Drittanbieter-Modell-API gab ohne Vorwarnung 401 zurück, ließ das System tagelang ohne Fallback laufen.

Lektion: Jede KI-Integration, die externe Dienste nutzt, wird regelmäßig durch Authentifizierungsfehler versagen. Plane dafür ein, überwache es, habe Fallbacks.

3. Das intelligenteste Modell macht die dümmsten Fehler

Opus fügt Dateien Eigenschaften hinzu: Die Nutzung von Opus 4.6 für einfache Cron-Jobs veranlasste es, „kreativ“ unerwünschte Metadaten zu Dateien hinzuzufügen, wodurch verwaiste Seiten in der Wissensdatenbank entstanden.
KI-Inhalt klingt nach KI: Vollständige Inhalts-Pipeline (743 Beiträge scrapen, Muster analysieren, Entwürfe generieren) produzierte Beiträge, die sich anhörten, als hätte KI sie geschrieben. Framework-Beiträge erhielten 0 Likes, während persönliche, von Hand geschriebene Beiträge in 2 Stunden 6 Likes und 2 Kommentare bekamen.
Langform-Umschreibungen waren schlecht: Zwei KI-generierte Entwürfe eines Artikels kamen als generische Zusammenfassungen zurück. Der Entwickler musste den Artikel parken.

Lektion: Teurere Modelle sind nicht immer besser. Nutze das günstigste Modell, das die Aufgabe erledigt. Lass KI niemals die endgültige Stimme für etwas sein, das menschlich klingen muss.

4. Automatisierung, die Zeit spart, kostet Zeit

23 Iterationen für eine Infografik: HTML/CSS zu Chrome headless zu PNG verbrauchte einen ganzen Tag für ein visuelles Asset. „KI kann Bilder generieren, aber generieren und generieren, was du tatsächlich willst, sind durch 22 Überarbeitungen getrennt.“
4 Stunden Aufräumen pro 1 Stunde „Ersparnis“: Die Quelle erwähnt dieses Muster, liefert aber nicht das vollständige Beispiel.

Zusätzlich erwähnte Fehlerkategorien

Die Quelle erwähnt insgesamt acht Kategorien, detailliert aber nur vier im bereitgestellten Text. Die verbleibenden Kategorien werden erwähnt, aber nicht ausgeführt.