OpenClaw WhatsApp自動返信は、2026.4.2でメディア理解をスキップする可能性があります。

問題の概要
ユーザーは、OpenClawのWhatsApp統合が正しく設定されているにもかかわらず、音声メモの文字起こしに失敗する問題に遭遇しました。この問題は、OpenClawバージョン2026.4.2のWhatsApp自動返信フローで特に発生します。
問題の詳細
ユーザーの設定には以下が含まれていました:
- 有効なMediaPathとMediaTypeを持つWhatsApp受信メッセージ
- オーディオファイルが正しく.oggファイルとして保存されている
- 設定で
tools.media.audioが有効化されている - 音声認識用の外部文字起こしバックエンド(Groq STT)
すべてが正しく見えるにもかかわらず、エージェントは文字起こしではなく<media:audio>プレースホルダーを受け取りました。文字起こしプロセスは決してトリガーされませんでした。
根本原因
フローをトレースした後、ユーザーはWhatsApp自動返信パスが、メッセージをエージェントにディスパッチする前に標準的なメディア理解パイプラインを常に呼び出さないことを発見しました。これは以下を意味します:
tools.media.audioが実行されない- CLIや外部バックエンド(Groq STTなど)が実行されない
- エージェントは
<media:audio>プレースホルダーのみを認識する
この問題は、非ネイティブのオーディオモデルを使用する場合に特に顕著です。なぜなら、それらのモデルはオーディオを暗黙的に自動処理しないためです。
解決策
修正方法としては、返信がエージェントにディスパッチされる前に、メディア理解ステップの呼び出しを強制することが含まれます。ユーザーはWhatsApp受信自動返信フローにパッチを適用し、以下を行いました:
- WhatsApp受信コンテキストを構築する
- 標準返信パイプラインで使用されるのと同じメディア理解ロジックを明示的に実行する
- 通常のエージェントディスパッチを続行する
この修正を実装した後:
- オーディオが正しく認識される
- CLI(この場合はGroq STT)が実行される
- 文字起こしがメッセージに挿入される
- エージェントは
<media:audio>ではなくテキストを受け取る
影響を受けるユーザー
この問題は、CLIベースの文字起こし、外部API、または非ネイティブのオーディオモデルに依存するユーザーに影響を与えます。これらの設定はメディア理解がトリガーされることに完全に依存しており、そのステップがスキップされると、正しい設定であっても下流の処理は一切機能しません。
重要なポイント
オーディオが正しく受信および保存され、tools.media.audioが有効化されているにもかかわらず、文字起こしが行われない問題が発生している場合は、WhatsApp自動返信パスがエージェントディスパッチ前に実際にメディア理解パイプラインを呼び出しているかどうかを確認してください。
📖 Read the full source: r/openclaw
👀 See Also

FirefoxでのClaude.aiフリーズ問題をTampermonkeyスクリプトで回避する方法
Redditユーザーが、Claude.aiでフリーズを経験しているFirefoxユーザーのためのTampermonkeyスクリプトの回避策を共有しています。このスクリプトは、インターフェースがハングする原因となるタイミングの競合を防ぐために、Date.now()の動作を変更します。

6GB VRAMのノートパソコンで完全ローカルのAIエージェントを実行する方法:学生のためのステップバイステップガイド
高価なAPIに頼らず、学生が6GB VRAMのノートパソコンを活用してAIエージェントをローカルで実行する方法を探ります。当ガイドでは、必須のステップとツールを詳しく解説します。

18ヶ月間毎日使うClaudeユーザーによる11の深いコツ
シニア開発者が18ヶ月間毎日Claudeを使用した後に得た、11のあまり知られていないClaudeのコツを共有。Projects、Custom Styles、Memory、Sonnet 4.6 vs Opus 4.7、バッチ処理向けHaiku 4.5、Claude Codeサブエージェント、APIを呼び出すArtifactsなどを含む。

CLAUDE.mdの腐敗を防ぐ方法:ルールをコードとして扱う
18ヶ月の実運用を経て、ある開発者がCLAUDE.mdを100行未満に保つための4つの教訓を共有:索引として使う、ルールと情報源を分離する、すべてのPRで監査する、追加よりも削除を優先する。