OpenClaw 2026.4.2: Error al Omitir Comprensión de Medios en WhatsApp

Resumen del Problema

Un usuario encontró un problema donde la integración de WhatsApp de OpenClaw no transcribía las notas de voz a pesar de tener una configuración correcta. El problema ocurre específicamente en el flujo de respuesta automática de WhatsApp en la versión 2026.4.2 de OpenClaw.

Detalles del Problema

La configuración del usuario incluía:

Mensajes entrantes de WhatsApp con MediaPath y MediaType válidos
Archivos de audio almacenados correctamente como archivos .ogg
tools.media.audio habilitado en la configuración
Un backend de transcripción externo (Groq STT) para conversión de voz a texto

A pesar de que todo parecía correcto, el agente recibía marcadores de posición <media:audio> en lugar de transcripciones. El proceso de transcripción nunca se activaba.

Causa Raíz

Después de rastrear el flujo, el usuario descubrió que la ruta de respuesta automática de WhatsApp no siempre invoca el pipeline estándar de comprensión de medios antes de enviar los mensajes al agente. Esto significa:

tools.media.audio nunca se ejecuta
CLI o backends externos (como Groq STT) nunca se ejecutan
El agente solo ve el marcador de posición <media:audio>

Este problema es particularmente notable cuando se usan modelos de audio no nativos, ya que estos no manejan el audio implícitamente de forma automática.

Solución

La solución implica forzar una llamada al paso de comprensión de medios antes de que la respuesta sea enviada al agente. El usuario modificó el flujo de respuesta automática entrante de WhatsApp para:

Construir el contexto entrante de WhatsApp
Ejecutar explícitamente la misma lógica de comprensión de medios utilizada en el pipeline de respuesta estándar
Continuar con el envío normal al agente

Después de implementar esta solución:

El audio se capta correctamente
El CLI (Groq STT en este caso) se ejecuta
La transcripción se inyecta en el mensaje
El agente recibe texto en lugar de <media:audio>

A quién Afecta

Este problema afecta a los usuarios que dependen de la transcripción basada en CLI, APIs externas o cualquier modelo de audio no nativo. Estas configuraciones dependen completamente de que se active la comprensión de medios, y si ese paso se omite, nada funcionará aguas abajo incluso con una configuración correcta.

Conclusión Principal

Si estás experimentando problemas donde el audio se recibe y almacena correctamente, tools.media.audio está habilitado, pero la transcripción nunca ocurre, verifica si tu ruta de respuesta automática de WhatsApp realmente está llamando al pipeline de comprensión de medios antes del envío al agente.

📖 Leer la fuente completa: r/openclaw