O vLLM 0.17.0 modificado roda em Tesla P40 para transcrição em tempo real com Qwen3 ASR 1.7B

✍️ OpenClawRadar📅 Publicado: March 9, 2026🔗 Source
O vLLM 0.17.0 modificado roda em Tesla P40 para transcrição em tempo real com Qwen3 ASR 1.7B
Ad

Um desenvolvedor modificou com sucesso o vLLM 0.17.0 para rodar em GPUs Tesla P40, permitindo transcrição de aulas em tempo real com o modelo Qwen3 ASR 1.7B. A P40 usa a arquitetura Pascal, que normalmente não tem suporte para mecanismos de inferência mais recentes.

Detalhes Principais

O desenvolvedor estava trabalhando em um projeto pessoal para transcrição de aulas em tempo real. Inicialmente, planejava usar o modelo Qwen3 ASR 1.7B, mas descobriu que a transcrição verdadeiramente em tempo real só é suportada através do vLLM. Em vez de dividir amostras de áudio como alternativa, tentou uma modificação experimental.

Usando Codex, modificou o vLLM para rodar na arquitetura Pascal. Isso permitiu executar o modelo Qwen3 ASR 1.7B em sua GPU de servidor Tesla P40. O resultado foi aceleração de hardware quase completa e transcrição totalmente em tempo real.

A versão modificada do vLLM está disponível em: https://github.com/uaysk/vllm-pascal

Ad

Próximos Passos e Desafios

O próximo objetivo do desenvolvedor é tentar executar modelos Qwen3.5 nesta configuração. No entanto, ele observa vários problemas técnicos. A funcionalidade de visão parece indisponível, e mesmo usar apenas as capacidades de texto apresenta desafios. Neste momento, ele não tem certeza se será possível.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Desenvolvedor Usa Claude AI para Construir o Aplicativo PosturePal de Escaneamento de Postura
Use Cases

Desenvolvedor Usa Claude AI para Construir o Aplicativo PosturePal de Escaneamento de Postura

Um desenvolvedor criou o PosturePal: Posture Scanner usando a Claude AI para múltiplos aspectos, incluindo código, decisões de produto, comunicação de feedback do usuário e redação. O aplicativo analisa fotos de perfil lateral para fornecer pontuações de postura, identificar problemas específicos e gerar exercícios personalizados.

OpenClawRadar
Divisão do Uso Diário entre Claude e ChatGPT na Experiência de um Desenvolvedor
Use Cases

Divisão do Uso Diário entre Claude e ChatGPT na Experiência de um Desenvolvedor

Um desenvolvedor compartilha sua divisão de fluxo de trabalho de cinco meses: Claude se destaca na escrita de textos longos, análise de documentos com contexto de 200k, comparações sutis e planejamento de viagens, enquanto o ChatGPT é preferido para respostas rápidas, geração de imagens com DALL-E, GPTs personalizados e trechos de Excel/código.

OpenClawRadar
Não programador constrói painel ao vivo da MLB usando Claude AI e Claude Code no GitHub Codespaces
Use Cases

Não programador constrói painel ao vivo da MLB usando Claude AI e Claude Code no GitHub Codespaces

Um usuário sem experiência em programação usou o Claude chat e o Claude Code no GitHub Codespaces para criar um painel ao vivo da MLB com relatórios de lesões, placares de jogos e estatísticas de times, implantando-o no Vercel.

OpenClawRadar
Desenvolvedor Cria Motor de Simulação de Beisebol com IA Usando Claude Code em Duas Semanas
Use Cases

Desenvolvedor Cria Motor de Simulação de Beisebol com IA Usando Claude Code em Duas Semanas

Um desenvolvedor usou o Claude Code para construir um sistema completo de simulação de beisebol com 30 times da MLB gerenciados por IA, resumos de jogos, coletivas de imprensa e podcasts em áudio. O projeto custou US$ 50 em créditos de API e inclui um mecanismo de simulação, pipeline de conteúdo, bot do Discord e site.

OpenClawRadar