OpenClaw 2026.4.2 WhatsApp 자동 응답: 미디어 이해 건너뛰기 수정 방법

문제 개요

사용자가 OpenClaw의 WhatsApp 통합이 올바른 구성에도 불구하고 음성 메모를 전사하지 못하는 문제를 발견했습니다. 이 문제는 특히 OpenClaw 버전 2026.4.2의 WhatsApp 자동 응답 흐름에서 발생합니다.

사용자의 설정에는 다음이 포함되었습니다:

모든 것이 올바르게 보임에도 불구하고, 에이전트는 전사본 대신 <media:audio> 자리 표시자를 수신했습니다. 전사 과정이 전혀 트리거되지 않았습니다.

흐름을 추적한 후, 사용자는 WhatsApp 자동 응답 경로가 에이전트로 메시지를 디스패치하기 전에 항상 표준 미디어 이해 파이프라인을 호출하지 않는다는 사실을 발견했습니다. 이는 다음을 의미합니다:

이 문제는 비네이티브 오디오 모델을 사용할 때 특히 두드러지는데, 이러한 모델은 오디오를 암묵적으로 자동 처리하지 않기 때문입니다.

수정 방법은 응답이 에이전트로 디스패치되기 전에 미디어 이해 단계를 강제로 호출하는 것입니다. 사용자는 WhatsApp 수신 자동 응답 흐름을 패치하여 다음을 수행하도록 했습니다:

이 수정 사항을 구현한 후:

이 문제는 CLI 기반 전사, 외부 API 또는 비네이티브 오디오 모델에 의존하는 사용자에게 영향을 미칩니다. 이러한 설정은 미디어 이해가 트리거되는 데 전적으로 의존하며, 해당 단계가 건너뛰어지면 올바른 구성에도 불구하고 다운스트림 작업이 작동하지 않습니다.

오디오가 올바르게 수신 및 저장되고, tools.media.audio가 활성화되었지만 전사가 전혀 발생하지 않는 문제를 경험하고 있다면, WhatsApp 자동 응답 경로가 실제로 에이전트 디스패치 전에 미디어 이해 파이프라인을 호출하는지 확인하세요.

📖 전체 소스 읽기: r/openclaw