Modifiziertes vLLM 0.17.0 läuft auf Tesla P40 für Echtzeit-Transkription mit Qwen3 ASR 1.7B

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Modifiziertes vLLM 0.17.0 läuft auf Tesla P40 für Echtzeit-Transkription mit Qwen3 ASR 1.7B
Ad

Ein Entwickler hat vLLM 0.17.0 erfolgreich für den Betrieb auf Tesla P40 GPUs modifiziert, wodurch Echtzeit-Vorlesungstranskription mit dem Qwen3 ASR 1.7B Modell ermöglicht wird. Die P40 verwendet die Pascal-Architektur, die normalerweise keine Unterstützung für neuere Inferenz-Engines bietet.

Wichtige Details

Der Entwickler arbeitete an einem persönlichen Projekt zur Echtzeit-Transkription von Vorlesungen. Ursprünglich war geplant, das Qwen3 ASR 1.7B Modell zu verwenden, aber es stellte sich heraus, dass echte Echtzeit-Transkription nur über vLLM unterstützt wird. Anstatt Audiodateien in Abschnitte zu unterteilen, versuchte er eine experimentelle Modifikation.

Mithilfe von Codex passte er vLLM für die Pascal-Architektur an. Dies ermöglichte es ihm, das Qwen3 ASR 1.7B Modell auf seiner Tesla P40 Server-GPU auszuführen. Das Ergebnis war nahezu vollständige Hardwarebeschleunigung und vollständige Echtzeit-Transkription.

Der modifizierte vLLM Fork ist verfügbar unter: https://github.com/uaysk/vllm-pascal

Ad

Nächste Schritte und Herausforderungen

Das nächste Ziel des Entwicklers ist es, Qwen3.5 Modelle mit diesem Setup auszuprobieren. Allerdings weist er auf mehrere technische Probleme hin. Die Vision-Funktionalität scheint nicht verfügbar zu sein, und selbst die Nutzung nur der Textfähigkeiten stellt Herausforderungen dar. Derzeit ist unklar, ob dies möglich sein wird.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Testen von Claude Sonnet mit einem Strategiespiel: Herausforderungen bei der Regelbefolgung
Anwendungsfälle

Testen von Claude Sonnet mit einem Strategiespiel: Herausforderungen bei der Regelbefolgung

Ein Entwickler testete Claude Sonnet, indem er OFMOS® Essential spielte, ein patentiertes Strategiespiel zum Produktportfoliomanagement, unter Verwendung eines strukturierten Prompt-Systems mit Regeln, Brettdarstellung und Zugverwaltung. Das Modell verstand die Regeln und verfolgte die Punktestände, machte jedoch häufig illegale Züge aufgrund fehlender eingeschränkter Zuggenerierung.

OpenClawRadar
OpenClaw Fallstudie: 4 Produkte entwickeln und ein Unternehmen in 3 Wochen gründen
Anwendungsfälle

OpenClaw Fallstudie: 4 Produkte entwickeln und ein Unternehmen in 3 Wochen gründen

Ein Nicht-Entwickler nutzte OpenClaw, um vier funktionale Produkte zu erstellen und in drei Wochen ein KI-Installationsgeschäft zu starten. Die Projekte umfassen eine KI-Mathematik-Nachhilfeplattform, einen Trading-Bot, ein Marketing-Dashboard-SaaS und eine Solana-Vorhersagemarkt-dApp.

OpenClawRadar
LinkedIn Outreach Workflow, erstellt mit Claude für Prospektion und Engagement
Anwendungsfälle

LinkedIn Outreach Workflow, erstellt mit Claude für Prospektion und Engagement

Ein Entwickler hat einen LinkedIn-Prospektierungs-Workflow mit Claude erstellt, der relevante Kontakte identifiziert, Leads kategorisiert, aktuelle Beiträge findet und Interaktionen durch Likes, Kommentare und Verbindungsanfragen abwickelt. Das System priorisiert Profile mit höherer Engagement-Rate und überspringt inaktive.

OpenClawRadar
Automatisiertes Design mit Claude und Canva über API
Anwendungsfälle

Automatisiertes Design mit Claude und Canva über API

Ein Reddit-Nutzer beschreibt, wie er Claude über die API mit Canva verbindet, um mit einfachen englischen Anweisungen bearbeitbare Canva-Dateien mit angepassten Schriftarten, Abständen und Layout zu erstellen – das spart mehrere Stunden pro Woche.

OpenClawRadar