vLLM 0.17.0 Modifié: Exécution sur Tesla P40 pour Transcription Temps Réel

Un développeur a réussi à modifier vLLM 0.17.0 pour l'exécuter sur des GPU Tesla P40, permettant la transcription en temps réel de conférences avec le modèle Qwen3 ASR 1.7B. Le P40 utilise l'architecture Pascal, qui manque généralement de support pour les moteurs d'inférence plus récents.

Détails clés

Le développeur travaillait sur un projet personnel de transcription en temps réel de conférences. Il avait initialement prévu d'utiliser le modèle Qwen3 ASR 1.7B, mais a constaté que la transcription véritablement en temps réel n'est prise en charge que par vLLM. Plutôt que de segmenter les échantillons audio comme alternative, il a tenté une modification expérimentale.

En utilisant Codex, il a modifié vLLM pour l'exécuter sur l'architecture Pascal. Cela lui a permis d'exécuter le modèle Qwen3 ASR 1.7B sur son GPU serveur Tesla P40. Le résultat a été une accélération matérielle quasi complète et une transcription entièrement en temps réel.

Le fork modifié de vLLM est disponible à l'adresse : https://github.com/uaysk/vllm-pascal

Prochaines étapes et défis

L'objectif suivant du développeur est d'essayer d'exécuter les modèles Qwen3.5 sur cette configuration. Cependant, il note plusieurs problèmes techniques. La fonctionnalité de vision semble indisponible, et même l'utilisation uniquement des capacités textuelles présente des défis. À ce stade, il n'est pas certain que cela soit possible.

📖 Lire la source complète : r/LocalLLaMA

La version modifiée de vLLM 0.17.0 fonctionne sur Tesla P40 pour la transcription en temps réel avec Qwen3 ASR 1.7B.

Détails clés

Prochaines étapes et défis

👀 See Also

Qwen3-0.6B INT8 local comme épine dorsale d'embedding pour le système de mémoire IA

Un non-développeur crée une application web Sleep Sound Mixer en utilisant Claude AI

OpenClaw Crée 90 % de la Vidéo à l'Aide de Modèles d'IA pour 69,5 $

Cas de débogage de Claude : L'agent a échoué silencieusement en raison d'un paramètre manquant, le cadrage a compté plus que le modèle.