La version modifiée de vLLM 0.17.0 fonctionne sur Tesla P40 pour la transcription en temps réel avec Qwen3 ASR 1.7B.

✍️ OpenClawRadar📅 Publié: March 9, 2026🔗 Source
La version modifiée de vLLM 0.17.0 fonctionne sur Tesla P40 pour la transcription en temps réel avec Qwen3 ASR 1.7B.
Ad

Un développeur a réussi à modifier vLLM 0.17.0 pour l'exécuter sur des GPU Tesla P40, permettant la transcription en temps réel de conférences avec le modèle Qwen3 ASR 1.7B. Le P40 utilise l'architecture Pascal, qui manque généralement de support pour les moteurs d'inférence plus récents.

Détails clés

Le développeur travaillait sur un projet personnel de transcription en temps réel de conférences. Il avait initialement prévu d'utiliser le modèle Qwen3 ASR 1.7B, mais a constaté que la transcription véritablement en temps réel n'est prise en charge que par vLLM. Plutôt que de segmenter les échantillons audio comme alternative, il a tenté une modification expérimentale.

En utilisant Codex, il a modifié vLLM pour l'exécuter sur l'architecture Pascal. Cela lui a permis d'exécuter le modèle Qwen3 ASR 1.7B sur son GPU serveur Tesla P40. Le résultat a été une accélération matérielle quasi complète et une transcription entièrement en temps réel.

Le fork modifié de vLLM est disponible à l'adresse : https://github.com/uaysk/vllm-pascal

Ad

Prochaines étapes et défis

L'objectif suivant du développeur est d'essayer d'exécuter les modèles Qwen3.5 sur cette configuration. Cependant, il note plusieurs problèmes techniques. La fonctionnalité de vision semble indisponible, et même l'utilisation uniquement des capacités textuelles présente des défis. À ce stade, il n'est pas certain que cela soit possible.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Exécution de multiples agents de codage IA avec OpenClaw : Mise en place de fournisseur personnalisé et défis de mémoire inter-agents
Use Cases

Exécution de multiples agents de codage IA avec OpenClaw : Mise en place de fournisseur personnalisé et défis de mémoire inter-agents

Cet article détaille la configuration d'OpenClaw avec un fournisseur d'API tiers (DeepInfra) pour exécuter plusieurs agents de codage (backend, frontend, migrations) sans atteindre les limites de débit, et le problème d'isolation mémoire entre agents qui en a découlé.

OpenClawRadar
Développeur solo publie une appli pour enfants avec Claude Code, gagne 23 $ le premier jour
Use Cases

Développeur solo publie une appli pour enfants avec Claude Code, gagne 23 $ le premier jour

Un développeur solo indépendant a utilisé Claude Code pour créer et itérer 'Little Artist', une application de dessin et d'apprentissage pour enfants, gagnant 23 $ au cours des dernières 24 heures. Il rapporte une expédition 10 fois plus rapide grâce aux outils de codage IA.

OpenClawRadar
Mémoire IA persistante via Obsidian MCP : 16 outils pour Claude Cowork
Use Cases

Mémoire IA persistante via Obsidian MCP : 16 outils pour Claude Cowork

Un serveur MCP personnalisé relie Claude Cowork à Obsidian pour une mémoire persistante entre les sessions, utilisant 16 outils et des requêtes Dataview.

OpenClawRadar
Développeur publie un jeu Steam avec du code Claude : Leçons sur le Vibe Coding vs. le Vibe Engineering
Use Cases

Développeur publie un jeu Steam avec du code Claude : Leçons sur le Vibe Coding vs. le Vibe Engineering

Un développeur a publié Codex Mortis, un jeu de type bullet hell sur le thème de la nécromancie sur Steam, en utilisant Claude Code pour un développement assisté par l'IA. Le projet a nécessité deux réécritures complètes après le prototype initial, mettant en lumière l'écart entre prototype et production.

OpenClawRadar