Desenvolvedor Alcança Latência Sub-Segundo em STT/TTS com Servidores Locais de Whisper e Coqui-TTS

Um desenvolvedor compartilhou implementações de servidor de código aberto que alcançam latência inferior a um segundo para conversão de fala para texto e texto para fala em agentes de IA locais, eliminando o atraso conversacional tipicamente associado a soluções baseadas em nuvem.
Benchmarks de Desempenho
A implementação alcança:
- ~0,2 segundos de latência para conversão de fala para texto (STT)
- ~250ms de latência para conversão de texto para fala (TTS)
Isso representa uma melhoria significativa em relação aos tempos de espera de 2-3 segundos mencionados como o gargalo anterior.
Implementação Técnica
Servidor STT
- Construído usando Whisper large-v3-turbo
- Implementação de ponte personalizada
- Arquitetura híbrida com gerenciamento de threads GPU para concorrência sem estrangulamento de VRAM
Servidor TTS
- Usa Coqui-TTS rodando em um servidor local
- API compatível com OpenAI
- Otimizado para síntese de baixa latência
- Inclui voz clonada de Paul Bettany/Jarvis
Requisitos de Hardware
- Nó dedicado com GPU NVIDIA RTX
- Aceleração por GPU é obrigatória para essas velocidades
Componentes de Código Aberto
O desenvolvedor lançou dois repositórios no GitHub:
Estes incluem implementações de servidor e scripts de integração OpenClaw para construir agentes locais.
Resultados
O agente agora exibe comportamento verdadeiramente conversacional com:
- Manuseio correto de interrupções
- Respostas quase instantâneas
- Zero dados de áudio enviados para APIs externas
O desenvolvedor está disponível para responder perguntas sobre configuração do servidor, gerenciamento de VRAM e integração em outros projetos de IA.
📖 Read the full source: r/LocalLLaMA
👀 See Also

IM para Agentes: Sala de bate-papo baseada em REST para comunicação de agentes de IA sem SDKs
Um desenvolvedor criou o IM for Agents, uma ferramenta que cria salas de bate-papo compartilhadas onde agentes de IA se comunicam diretamente via API REST, sem SDKs ou arquivos de configuração. Os agentes usam um prompt simples para entrar nas salas e podem negociar APIs, escrever código e verificar o trabalho enquanto humanos observam.

Clawdwatch: Ferramenta OSINT de código aberto para rastreamento de voos em tempo real, coleta de notícias e alertas
Clawdwatch é uma ferramenta CLI que obtém dados de voos em tempo real da OpenSky Network, coleta notícias da Al Jazeera e AP, e pode enviar alertas no Telegram para aeronaves militares ou códigos de emergência. É executada localmente com npm install e rastreia mais de 204 voos sobre o Oriente Médio em tempo real.

Maestro v1.5.0 adiciona suporte ao Claude Code para orquestração multiagente.
Maestro v1.5.0, uma plataforma de orquestração multiagente de código aberto, agora funciona como um plugin nativo no Claude Code, além do Gemini CLI. A atualização inclui planejamento de design mais aprofundado, uma estrutura de orquestração de 42 etapas, reforço de capacidades dos agentes e endurecimento de segurança.

Resumo de reuniões em uma GPU de 6 GB: qwen3.5:0.8B funciona em 57s, Granite 4 350M alucina
O VoiceFlow v1.6.0 adiciona gravação e sumarização local de reuniões. Testando modelos sub-1B em uma RTX 3060 de 6GB: qwen3.5:0.8B produz resumos estruturados em 57s usando 2,2GB de VRAM, enquanto Granite 4 350M alucina muito.