O vLLM 0.17.0 modificado roda em Tesla P40 para transcrição em tempo real com Qwen3 ASR 1.7B

✍️ OpenClawRadar📅 Publicado: March 9, 2026🔗 Source

Um desenvolvedor modificou com sucesso o vLLM 0.17.0 para rodar em GPUs Tesla P40, permitindo transcrição de aulas em tempo real com o modelo Qwen3 ASR 1.7B. A P40 usa a arquitetura Pascal, que normalmente não tem suporte para mecanismos de inferência mais recentes.

Detalhes Principais

O desenvolvedor estava trabalhando em um projeto pessoal para transcrição de aulas em tempo real. Inicialmente, planejava usar o modelo Qwen3 ASR 1.7B, mas descobriu que a transcrição verdadeiramente em tempo real só é suportada através do vLLM. Em vez de dividir amostras de áudio como alternativa, tentou uma modificação experimental.

Usando Codex, modificou o vLLM para rodar na arquitetura Pascal. Isso permitiu executar o modelo Qwen3 ASR 1.7B em sua GPU de servidor Tesla P40. O resultado foi aceleração de hardware quase completa e transcrição totalmente em tempo real.

A versão modificada do vLLM está disponível em: https://github.com/uaysk/vllm-pascal

Próximos Passos e Desafios

O próximo objetivo do desenvolvedor é tentar executar modelos Qwen3.5 nesta configuração. No entanto, ele observa vários problemas técnicos. A funcionalidade de visão parece indisponível, e mesmo usar apenas as capacidades de texto apresenta desafios. Neste momento, ele não tem certeza se será possível.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Use Cases

Executar o Claude com o Qwen 3.5 como um agente persistente no Mac Mini revela um gargalo humano

Um desenvolvedor executa o Claude com Qwen 3.5 como um agente persistente em um Mac Mini dedicado, lidando com criação de produtos, gerenciamento de projetos, análises, suporte a newsletter e 3.000 tarefas do WizBoard. O agente criou 16 produtos em dois meses, revelando que o gargalo mudou da capacidade de produção para a aprovação humana e a tomada de decisões.

Mar 27, 2026, 10:45 AM UTC

OpenClawRadar

Use Cases

Estudo de Caso: Uso de Prompts de LLM em Vez de Estruturação Programática para Construções de Software Multiagente

Um estudo de caso de 10 builds de software autônomas usando um orquestrador Claude Opus com acesso CLI e agentes trabalhadores Codex produziu 10 jogos de navegador em TypeScript totalizando mais de 50.000 linhas de código sem intervenção humana de código. A lógica de orquestração foi inteiramente baseada em prompts, substituindo um scaffold construído propositalmente.

Feb 23, 2026, 11:45 PM UTC

OpenClawRadar

Use Cases

Construa um Chat de IA Mãos-Livres com OpenClaw + Mattermost — Sem Necessidade de Voz em Tempo Real

Um fluxo de trabalho prático de IA auto-hospedado usando OpenClaw, Mattermost, ditado por iPhone e anexos de MP3 TTS para interação segura ao dirigir, sem infraestrutura de voz em tempo real.

Jun 14, 2026, 12:18 AM UTC

OpenClawRadar

Use Cases

Usando o Claude como Gerente de Produto Crítico para Otimização de Página de Destino

Um desenvolvedor usou o Claude para criticar e reescrever sua página inicial, tratando-o como um gerente de produto severo e contrário, resultando em mensagens aprimoradas e melhor desempenho de SEO.

Mar 25, 2026, 01:45 AM UTC

OpenClawRadar