O vLLM 0.17.0 modificado roda em Tesla P40 para transcrição em tempo real com Qwen3 ASR 1.7B

Um desenvolvedor modificou com sucesso o vLLM 0.17.0 para rodar em GPUs Tesla P40, permitindo transcrição de aulas em tempo real com o modelo Qwen3 ASR 1.7B. A P40 usa a arquitetura Pascal, que normalmente não tem suporte para mecanismos de inferência mais recentes.
Detalhes Principais
O desenvolvedor estava trabalhando em um projeto pessoal para transcrição de aulas em tempo real. Inicialmente, planejava usar o modelo Qwen3 ASR 1.7B, mas descobriu que a transcrição verdadeiramente em tempo real só é suportada através do vLLM. Em vez de dividir amostras de áudio como alternativa, tentou uma modificação experimental.
Usando Codex, modificou o vLLM para rodar na arquitetura Pascal. Isso permitiu executar o modelo Qwen3 ASR 1.7B em sua GPU de servidor Tesla P40. O resultado foi aceleração de hardware quase completa e transcrição totalmente em tempo real.
A versão modificada do vLLM está disponível em: https://github.com/uaysk/vllm-pascal
Próximos Passos e Desafios
O próximo objetivo do desenvolvedor é tentar executar modelos Qwen3.5 nesta configuração. No entanto, ele observa vários problemas técnicos. A funcionalidade de visão parece indisponível, e mesmo usar apenas as capacidades de texto apresenta desafios. Neste momento, ele não tem certeza se será possível.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Desenvolvedor Usa Claude AI para Construir o Aplicativo PosturePal de Escaneamento de Postura
Um desenvolvedor criou o PosturePal: Posture Scanner usando a Claude AI para múltiplos aspectos, incluindo código, decisões de produto, comunicação de feedback do usuário e redação. O aplicativo analisa fotos de perfil lateral para fornecer pontuações de postura, identificar problemas específicos e gerar exercícios personalizados.

Divisão do Uso Diário entre Claude e ChatGPT na Experiência de um Desenvolvedor
Um desenvolvedor compartilha sua divisão de fluxo de trabalho de cinco meses: Claude se destaca na escrita de textos longos, análise de documentos com contexto de 200k, comparações sutis e planejamento de viagens, enquanto o ChatGPT é preferido para respostas rápidas, geração de imagens com DALL-E, GPTs personalizados e trechos de Excel/código.

Não programador constrói painel ao vivo da MLB usando Claude AI e Claude Code no GitHub Codespaces
Um usuário sem experiência em programação usou o Claude chat e o Claude Code no GitHub Codespaces para criar um painel ao vivo da MLB com relatórios de lesões, placares de jogos e estatísticas de times, implantando-o no Vercel.

Desenvolvedor Cria Motor de Simulação de Beisebol com IA Usando Claude Code em Duas Semanas
Um desenvolvedor usou o Claude Code para construir um sistema completo de simulação de beisebol com 30 times da MLB gerenciados por IA, resumos de jogos, coletivas de imprensa e podcasts em áudio. O projeto custou US$ 50 em créditos de API e inclui um mecanismo de simulação, pipeline de conteúdo, bot do Discord e site.