Transcrição local de voz para texto para OpenClaw usando Parakeet TDT 0.6b v3

Configuração local de transcrição para OpenClaw
Um desenvolvedor da comunidade adaptou o modelo Parakeet TDT 0.6b v3 da NVIDIA para transcrição local de voz para texto dentro do OpenClaw. O modelo roda via inferência ONNX em CPU, eliminando custos de API e suportando 25 idiomas europeus.
Implementação técnica
A solução usa um repositório GitHub (groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai) que fornece um contêiner Docker para implantação em CPU. O contêiner expõe um endpoint de API compatível com OpenAI em http://127.0.0.1:5092/v1.
Os idiomas suportados incluem: Búlgaro (bg), Croata (hr), Tcheco (cs), Dinamarquês (da), Holandês (nl), Inglês (en), Estoniano (et), Finlandês (fi), Francês (fr), Alemão (de), Grego (el), Húngaro (hu), Italiano (it), Letão (lv), Lituano (lt), Maltês (mt), Polonês (pl), Português (pt), Romeno (ro), Eslovaco (sk), Esloveno (sl), Espanhol (es), Sueco (sv), Russo (ru) e Ucraniano (uk).
Integração com OpenClaw
O desenvolvedor fornece um script Python para transcrição:
#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI
client = OpenAI(
base_url="http://127.0.0.1:5092/v1",
api_key="sk-no-key-required"
)
audio_file = open(sys.argv[1], "rb")
transcript = client.audio.transcriptions.create(
model="parakeet-tdt-0.6b-v3",
file=audio_file,
response_format="text"
)
print(transcript)
Este script pode ser configurado no arquivo openclaw.json do OpenClaw:
"tools": {
"media": {
"audio": {
"enabled": true,
"models": [
{
"type": "cli",
"command": "/home/openclaw/.local/bin/transcribe",
"args": ["{{MediaPath}}"],
"timeoutSeconds": 60
}
]
}
}
}Alternativamente, o OpenClaw pode ser configurado para usar diretamente o endpoint de API compatível com OpenAI com o nome do modelo e a chave de API fictícia do script.
Notas de implantação
O desenvolvedor testou isso em uma VM Ubuntu ARM64 em um Mac Mini com M4 Pro, observando que deve rodar razoavelmente rápido em qualquer CPU Intel compatível decente. O contêiner Docker é construído seguindo as instruções do README no repositório GitHub.
📖 Leia a fonte completa: r/openclaw
👀 See Also

Gerenciamento Eficiente de Tokens com Servidores MCP de Código Aberto: Pare
Os servidores Pare MCP reduzem o desperdício de tokens e aumentam a eficiência quando agentes de IA de codificação usam ferramentas de desenvolvimento, fornecendo saída estruturada.

Sonicker: Aplicativo Web de Clonagem de Voz Criado com Claude Code em 4 Dias
Sonicker é um aplicativo web de clonagem de voz que requer apenas 3 segundos de entrada de áudio e suporta 10 idiomas. O desenvolvedor o construiu sozinho em 4 dias usando Claude Code para todo o frontend, integração de API e implantação.

Complemento OpenClaw Outlook Conecta Agente Local à Barra Lateral de Email
Um desenvolvedor criou um add-in para Outlook que se conecta a um Gateway OpenClaw local via WebSocket, fornecendo acesso completo ao agente com ferramentas e automações diretamente na barra lateral de e-mails. A ferramenta lê e-mails selecionados como contexto, mantém sessões de chat por e-mail e funciona com o Outlook Desktop e Web.

Usuário do Reddit Testa Recurso de Autoaprendizado do Agente de IA Hermes, Encontra Falhas Críticas
Um usuário do Reddit testou o recurso de autoaprendizagem do agente de IA Hermes, que cria habilidades automaticamente a partir de arquivos markdown. O usuário descobriu que ele sempre avalia seus próprios resultados como bem-sucedidos, mesmo quando a saída está incorreta, e sobrescreve edições manuais.