Modifiziertes vLLM 0.17.0 läuft auf Tesla P40 für Echtzeit-Transkription mit Qwen3 ASR 1.7B

Ein Entwickler hat vLLM 0.17.0 erfolgreich für den Betrieb auf Tesla P40 GPUs modifiziert, wodurch Echtzeit-Vorlesungstranskription mit dem Qwen3 ASR 1.7B Modell ermöglicht wird. Die P40 verwendet die Pascal-Architektur, die normalerweise keine Unterstützung für neuere Inferenz-Engines bietet.
Wichtige Details
Der Entwickler arbeitete an einem persönlichen Projekt zur Echtzeit-Transkription von Vorlesungen. Ursprünglich war geplant, das Qwen3 ASR 1.7B Modell zu verwenden, aber es stellte sich heraus, dass echte Echtzeit-Transkription nur über vLLM unterstützt wird. Anstatt Audiodateien in Abschnitte zu unterteilen, versuchte er eine experimentelle Modifikation.
Mithilfe von Codex passte er vLLM für die Pascal-Architektur an. Dies ermöglichte es ihm, das Qwen3 ASR 1.7B Modell auf seiner Tesla P40 Server-GPU auszuführen. Das Ergebnis war nahezu vollständige Hardwarebeschleunigung und vollständige Echtzeit-Transkription.
Der modifizierte vLLM Fork ist verfügbar unter: https://github.com/uaysk/vllm-pascal
Nächste Schritte und Herausforderungen
Das nächste Ziel des Entwicklers ist es, Qwen3.5 Modelle mit diesem Setup auszuprobieren. Allerdings weist er auf mehrere technische Probleme hin. Die Vision-Funktionalität scheint nicht verfügbar zu sein, und selbst die Nutzung nur der Textfähigkeiten stellt Herausforderungen dar. Derzeit ist unklar, ob dies möglich sein wird.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Testen von Claude Sonnet mit einem Strategiespiel: Herausforderungen bei der Regelbefolgung
Ein Entwickler testete Claude Sonnet, indem er OFMOS® Essential spielte, ein patentiertes Strategiespiel zum Produktportfoliomanagement, unter Verwendung eines strukturierten Prompt-Systems mit Regeln, Brettdarstellung und Zugverwaltung. Das Modell verstand die Regeln und verfolgte die Punktestände, machte jedoch häufig illegale Züge aufgrund fehlender eingeschränkter Zuggenerierung.

OpenClaw Fallstudie: 4 Produkte entwickeln und ein Unternehmen in 3 Wochen gründen
Ein Nicht-Entwickler nutzte OpenClaw, um vier funktionale Produkte zu erstellen und in drei Wochen ein KI-Installationsgeschäft zu starten. Die Projekte umfassen eine KI-Mathematik-Nachhilfeplattform, einen Trading-Bot, ein Marketing-Dashboard-SaaS und eine Solana-Vorhersagemarkt-dApp.

LinkedIn Outreach Workflow, erstellt mit Claude für Prospektion und Engagement
Ein Entwickler hat einen LinkedIn-Prospektierungs-Workflow mit Claude erstellt, der relevante Kontakte identifiziert, Leads kategorisiert, aktuelle Beiträge findet und Interaktionen durch Likes, Kommentare und Verbindungsanfragen abwickelt. Das System priorisiert Profile mit höherer Engagement-Rate und überspringt inaktive.

Automatisiertes Design mit Claude und Canva über API
Ein Reddit-Nutzer beschreibt, wie er Claude über die API mit Canva verbindet, um mit einfachen englischen Anweisungen bearbeitbare Canva-Dateien mit angepassten Schriftarten, Abständen und Layout zu erstellen – das spart mehrere Stunden pro Woche.