vLLM 0.17.0 auf Tesla P40: Echtzeit-Transkription mit Qwen3 ASR

Ein Entwickler hat vLLM 0.17.0 erfolgreich für den Betrieb auf Tesla P40 GPUs modifiziert, wodurch Echtzeit-Vorlesungstranskription mit dem Qwen3 ASR 1.7B Modell ermöglicht wird. Die P40 verwendet die Pascal-Architektur, die normalerweise keine Unterstützung für neuere Inferenz-Engines bietet.

Wichtige Details

Der Entwickler arbeitete an einem persönlichen Projekt zur Echtzeit-Transkription von Vorlesungen. Ursprünglich war geplant, das Qwen3 ASR 1.7B Modell zu verwenden, aber es stellte sich heraus, dass echte Echtzeit-Transkription nur über vLLM unterstützt wird. Anstatt Audiodateien in Abschnitte zu unterteilen, versuchte er eine experimentelle Modifikation.

Mithilfe von Codex passte er vLLM für die Pascal-Architektur an. Dies ermöglichte es ihm, das Qwen3 ASR 1.7B Modell auf seiner Tesla P40 Server-GPU auszuführen. Das Ergebnis war nahezu vollständige Hardwarebeschleunigung und vollständige Echtzeit-Transkription.

Der modifizierte vLLM Fork ist verfügbar unter: https://github.com/uaysk/vllm-pascal

Nächste Schritte und Herausforderungen

Das nächste Ziel des Entwicklers ist es, Qwen3.5 Modelle mit diesem Setup auszuprobieren. Allerdings weist er auf mehrere technische Probleme hin. Die Vision-Funktionalität scheint nicht verfügbar zu sein, und selbst die Nutzung nur der Textfähigkeiten stellt Herausforderungen dar. Derzeit ist unklar, ob dies möglich sein wird.

📖 Read the full source: r/LocalLLaMA

Modifiziertes vLLM 0.17.0 läuft auf Tesla P40 für Echtzeit-Transkription mit Qwen3 ASR 1.7B

Wichtige Details

Nächste Schritte und Herausforderungen

👀 Siehe auch

OpenClaws Trick: Projekte und Sitzungen für ein kontinuierliches Agentengedächtnis verschwinden lassen

OpenClaw gleicht Garmin-Geräte-Arbeitsblatt mit realem Aktivitätsverlauf ab

Praktische Grenzen von Multi-GPU-AI-Workstations: Erfahrungen aus einem Build mit 9× RTX 3090

Nicht-Programmierer erstellt Live-MLB-Dashboard mit Claude AI und Claude Code auf GitHub Codespaces