OpenClaw 2026.4.2: Ignorar Compreensão de Mídia no WhatsApp

Visão Geral do Problema

Um usuário encontrou um problema em que a integração do WhatsApp do OpenClaw falhou em transcrever notas de voz, apesar da configuração correta. O problema ocorre especificamente no fluxo de resposta automática do WhatsApp na versão 2026.4.2 do OpenClaw.

Detalhes do Problema

A configuração do usuário incluía:

Mensagens de entrada do WhatsApp com MediaPath e MediaType válidos
Arquivos de áudio sendo armazenados corretamente como arquivos .ogg
tools.media.audio habilitado na configuração
Um backend de transcrição externo (Groq STT) para conversão de fala em texto

Apesar de tudo parecer correto, o agente recebeu marcadores <media:audio> em vez de transcrições. O processo de transcrição nunca foi acionado.

Causa Raiz

Após rastrear o fluxo, o usuário descobriu que o caminho de resposta automática do WhatsApp nem sempre invoca o pipeline padrão de compreensão de mídia antes de despachar mensagens para o agente. Isso significa:

tools.media.audio nunca é executado
CLI ou backends externos (como o Groq STT) nunca são executados
O agente vê apenas o marcador <media:audio>

Esse problema é particularmente perceptível ao usar modelos de áudio não nativos, pois eles não lidam automaticamente com áudio de forma implícita.

Solução

A correção envolve forçar uma chamada para a etapa de compreensão de mídia antes que a resposta seja despachada para o agente. O usuário corrigiu o fluxo de resposta automática de entrada do WhatsApp para:

Construir o contexto de entrada do WhatsApp
Executar explicitamente a mesma lógica de compreensão de mídia usada no pipeline de resposta padrão
Continuar com o despacho normal do agente

Após implementar essa correção:

O áudio é capturado corretamente
O CLI (Groq STT neste caso) é executado
A transcrição é injetada na mensagem
O agente recebe texto em vez de <media:audio>

Quem Isso Afeta

Esse problema afeta usuários que dependem de transcrição baseada em CLI, APIs externas ou qualquer modelo de áudio não nativo. Essas configurações dependem inteiramente do acionamento da compreensão de mídia, e se essa etapa for ignorada, nada a jusante funcionará, mesmo com a configuração correta.

Principais Conclusões

Se você está enfrentando problemas em que o áudio é recebido e armazenado corretamente, tools.media.audio está habilitado, mas a transcrição nunca acontece, verifique se o caminho de resposta automática do WhatsApp está realmente chamando o pipeline de compreensão de mídia antes do despacho do agente.

📖 Leia a fonte completa: r/openclaw

OpenClaw WhatsApp Auto-Resposta Pode Ignorar Compreensão de Mídia na Versão 2026.4.2

Visão Geral do Problema

Detalhes do Problema

Causa Raiz

Solução

Quem Isso Afeta

Principais Conclusões

👀 See Also

OpenClaw Implementa Correção de Custo da API e Melhorias na Ferramenta de Modelo Local

Solução Alternativa para a Compactação do Claude: Usando um Arquivo Handoff.MD

Sugestões Vagas São o Verdadeiro Problema, Não o Modelo — Teste de 50 Execuções Mostra que a Qualidade do Prompt Supera a Escolha do Modelo

Inchaço de tokens em frameworks de agentes: uma relação de entrada-saída de 500:1 é normal