OpenClaw 2026.4.2: WhatsApp-Antwort-Assistent überspringt Medienverständnis

Problemübersicht

Ein Benutzer stieß auf ein Problem, bei dem die WhatsApp-Integration von OpenClaw Sprachnotizen nicht transkribierte, obwohl die Konfiguration korrekt war. Das Problem tritt speziell im WhatsApp-Auto-Antwort-Flow in OpenClaw Version 2026.4.2 auf.

Problemdetails

Der Aufbau des Benutzers umfasste:

WhatsApp-Eingangsnachrichten mit gültigem MediaPath und MediaType
Audio-Dateien, die korrekt als .ogg-Dateien gespeichert wurden
tools.media.audio in der Konfiguration aktiviert
Ein externes Transkriptions-Backend (Groq STT) für die Spracherkennung

Obwohl alles korrekt zu sein schien, erhielt der Agent <media:audio>-Platzhalter anstelle von Transkripten. Der Transkriptionsprozess wurde nie ausgelöst.

Ursache

Nach einer Verfolgung des Flows entdeckte der Benutzer, dass der WhatsApp-Auto-Antwort-Pfad nicht immer die Standard-Medienverständnis-Pipeline aufruft, bevor Nachrichten an den Agenten weitergeleitet werden. Das bedeutet:

tools.media.audio wird nie ausgeführt
CLI oder externe Backends (wie Groq STT) laufen nie
Der Agent sieht nur den <media:audio>-Platzhalter

Dieses Problem ist besonders auffällig, wenn nicht-native Audiomodelle verwendet werden, da diese Audio nicht implizit automatisch verarbeiten.

Lösung

Die Lösung besteht darin, einen Aufruf des Medienverständnis-Schritts zu erzwingen, bevor die Antwort an den Agenten weitergeleitet wird. Der Benutzer patchte den WhatsApp-Eingangs-Auto-Antwort-Flow, um:

Den WhatsApp-Eingangskontext aufzubauen
Explizit dieselbe Medienverständnis-Logik auszuführen, die im Standard-Antwort-Pipeline verwendet wird
Mit der normalen Agenten-Weiterleitung fortzufahren

Nach der Implementierung dieser Lösung:

Audio wird korrekt erkannt
Die CLI (in diesem Fall Groq STT) wird ausgeführt
Das Transkript wird in die Nachricht eingefügt
Der Agent erhält Text anstelle von <media:audio>

Betroffene Nutzer

Dieses Problem betrifft Benutzer, die auf CLI-basierte Transkription, externe APIs oder beliebige nicht-native Audiomodelle angewiesen sind. Diese Setups hängen vollständig davon ab, dass das Medienverständnis ausgelöst wird, und wenn dieser Schritt übersprungen wird, funktioniert nichts Downstream, selbst bei korrekter Konfiguration.

Wichtigste Erkenntnis

Wenn Sie Probleme haben, bei denen Audio korrekt empfangen und gespeichert wird, tools.media.audio aktiviert ist, aber die Transkription nie stattfindet, prüfen Sie, ob Ihr WhatsApp-Auto-Antwort-Pfad tatsächlich die Medienverständnis-Pipeline vor der Agenten-Weiterleitung aufruft.

📖 Read the full source: r/openclaw