Como Construir um Assistente de Voz com OpenClaw, Alexa e LLM Local

Um desenvolvedor compartilhou sua implementação de um assistente com foco em voz que usa o OpenClaw como estrutura principal do agente de IA, integrado com a Alexa para interação por voz e um LLM local para lidar com consultas de forma econômica.

Como Funciona

O sistema é acionado ao dizer "Alexa, abra Lucy" para uma skill personalizada da Alexa. As consultas são processadas por um sistema de roteamento de quatro níveis:

Caminho rápido (0ms): Lida com hora, data e respostas pré-definidas
LLM local Ollama (<1s): Usa o Qwen 2.5 3B para consultas de conhecimento geral, rodando em um Mac Mini com Apple Silicon
Agente Claude (5-12s): Lida com contexto pessoal, memória e raciocínio complexo
Adiado + ferramentas (até 2min): Gerencia e-mail, busca na web e consultas de banco de dados via TTS do Home Assistant

As respostas retornam para o mesmo dispositivo Alexa que iniciou a consulta, detectado automaticamente pelo recurso last_called do Home Assistant. O sistema usa Piper TTS no Home Assistant para saída de voz neural em espanhol nos alto-falantes Sonos e pode fornecer resumos matinais com dados de mercado, informações de calendário e métricas de negócios.

Stack Técnico

OpenClaw: Estrutura principal do agente de IA com suporte a Telegram, Alexa e interfaces de voz
Alexa Custom Skill: Proxy Node.js com autenticação por PIN e encadeamento de sessões
Ollama + Qwen 2.5 3B: LLM local que fornece respostas de ~0.5s
Home Assistant: Integra Alexa Media Player, Piper TTS e roteamento de dispositivos
Piper TTS: Voz neural em espanhol para alto-falantes Sonos

Detalhes Principais da Implementação

O desenvolvedor descobriu que usar um LLM local economiza aproximadamente 80% dos custos de API para perguntas simples que não exigem o Claude. No entanto, eles observaram que os modelos locais "alucinam livremente" e adicionaram um filtro de desvio para consultas de negócios e finanças.

O reconhecimento de fala da Alexa foi identificado como o gargalo, com AMAZON.SearchQuery e múltiplas amostras de enunciados ajudando a melhorar a precisão. A autenticação usa userId em vez de sessionId, pois a Alexa gera novas sessões para cada invocação. O desenvolvedor persiste a autenticação em arquivo porque os Maps na memória não sobrevivem a reinicializações do proxy.

O código do proxy está disponível como código aberto: openclaw-alexa-voice. Planos futuros incluem detecção de palavra de ativação ("Hey Lucy"), controle de casa inteligente e roteamento de alto-falantes baseado em presença.

📖 Leia a fonte completa: r/openclaw

Construindo um Assistente de Voz com OpenClaw, Alexa e LLM Local

Como Funciona

Stack Técnico

Detalhes Principais da Implementação

👀 See Also

Desenvolvedor constrói sistema complexo em 20 horas usando Claude AI sem escrever código

SeatBee.app utiliza a IA Claude para organizar lugares em casamentos

Configuração de Detalhes do Usuário do OpenClaw: Desafios e Abandono Após a Mudança para Mac

Usando Claude como um Interrogador Estrutural para Projetos Criativos