OpenClaw WhatsApp Auto-Resposta Pode Ignorar Compreensão de Mídia na Versão 2026.4.2

✍️ OpenClawRadar📅 Publicado: April 14, 2026🔗 Source
OpenClaw WhatsApp Auto-Resposta Pode Ignorar Compreensão de Mídia na Versão 2026.4.2
Ad

Visão Geral do Problema

Um usuário encontrou um problema em que a integração do WhatsApp do OpenClaw falhou em transcrever notas de voz, apesar da configuração correta. O problema ocorre especificamente no fluxo de resposta automática do WhatsApp na versão 2026.4.2 do OpenClaw.

Detalhes do Problema

A configuração do usuário incluía:

  • Mensagens de entrada do WhatsApp com MediaPath e MediaType válidos
  • Arquivos de áudio sendo armazenados corretamente como arquivos .ogg
  • tools.media.audio habilitado na configuração
  • Um backend de transcrição externo (Groq STT) para conversão de fala em texto

Apesar de tudo parecer correto, o agente recebeu marcadores <media:audio> em vez de transcrições. O processo de transcrição nunca foi acionado.

Causa Raiz

Após rastrear o fluxo, o usuário descobriu que o caminho de resposta automática do WhatsApp nem sempre invoca o pipeline padrão de compreensão de mídia antes de despachar mensagens para o agente. Isso significa:

  • tools.media.audio nunca é executado
  • CLI ou backends externos (como o Groq STT) nunca são executados
  • O agente vê apenas o marcador <media:audio>

Esse problema é particularmente perceptível ao usar modelos de áudio não nativos, pois eles não lidam automaticamente com áudio de forma implícita.

Ad

Solução

A correção envolve forçar uma chamada para a etapa de compreensão de mídia antes que a resposta seja despachada para o agente. O usuário corrigiu o fluxo de resposta automática de entrada do WhatsApp para:

  1. Construir o contexto de entrada do WhatsApp
  2. Executar explicitamente a mesma lógica de compreensão de mídia usada no pipeline de resposta padrão
  3. Continuar com o despacho normal do agente

Após implementar essa correção:

  • O áudio é capturado corretamente
  • O CLI (Groq STT neste caso) é executado
  • A transcrição é injetada na mensagem
  • O agente recebe texto em vez de <media:audio>

Quem Isso Afeta

Esse problema afeta usuários que dependem de transcrição baseada em CLI, APIs externas ou qualquer modelo de áudio não nativo. Essas configurações dependem inteiramente do acionamento da compreensão de mídia, e se essa etapa for ignorada, nada a jusante funcionará, mesmo com a configuração correta.

Principais Conclusões

Se você está enfrentando problemas em que o áudio é recebido e armazenado corretamente, tools.media.audio está habilitado, mas a transcrição nunca acontece, verifique se o caminho de resposta automática do WhatsApp está realmente chamando o pipeline de compreensão de mídia antes do despacho do agente.

📖 Leia a fonte completa: r/openclaw

Ad

👀 See Also