OpenClaw 2026.4.2 WhatsApp自動返信のメディア理解スキップ問題と修正

問題の概要

ユーザーは、OpenClawのWhatsApp統合が正しく設定されているにもかかわらず、音声メモの文字起こしに失敗する問題に遭遇しました。この問題は、OpenClawバージョン2026.4.2のWhatsApp自動返信フローで特に発生します。

ユーザーの設定には以下が含まれていました：

すべてが正しく見えるにもかかわらず、エージェントは文字起こしではなく<media:audio>プレースホルダーを受け取りました。文字起こしプロセスは決してトリガーされませんでした。

フローをトレースした後、ユーザーはWhatsApp自動返信パスが、メッセージをエージェントにディスパッチする前に標準的なメディア理解パイプラインを常に呼び出さないことを発見しました。これは以下を意味します：

この問題は、非ネイティブのオーディオモデルを使用する場合に特に顕著です。なぜなら、それらのモデルはオーディオを暗黙的に自動処理しないためです。

修正方法としては、返信がエージェントにディスパッチされる前に、メディア理解ステップの呼び出しを強制することが含まれます。ユーザーはWhatsApp受信自動返信フローにパッチを適用し、以下を行いました：

この修正を実装した後：

この問題は、CLIベースの文字起こし、外部API、または非ネイティブのオーディオモデルに依存するユーザーに影響を与えます。これらの設定はメディア理解がトリガーされることに完全に依存しており、そのステップがスキップされると、正しい設定であっても下流の処理は一切機能しません。

オーディオが正しく受信および保存され、tools.media.audioが有効化されているにもかかわらず、文字起こしが行われない問題が発生している場合は、WhatsApp自動返信パスがエージェントディスパッチ前に実際にメディア理解パイプラインを呼び出しているかどうかを確認してください。

📖 Read the full source: r/openclaw