Модифицированный vLLM 0.17.0 работает на Tesla P40 для транскрипции в реальном времени с использованием Qwen3 ASR 1.7B.

Разработчик успешно модифицировал vLLM 0.17.0 для работы на графических процессорах Tesla P40, что позволило осуществлять транскрипцию лекций в реальном времени с использованием модели Qwen3 ASR 1.7B. P40 использует архитектуру Pascal, которая обычно не поддерживается более новыми механизмами вывода.
Ключевые детали
Разработчик работал над личным проектом по транскрипции лекций в реальном времени. Изначально он планировал использовать модель Qwen3 ASR 1.7B, но обнаружил, что настоящая транскрипция в реальном времени поддерживается только через vLLM. Вместо использования альтернативы с разбиением аудиосэмплов, он попробовал экспериментальную модификацию.
С помощью Codex он модифицировал vLLM для работы на архитектуре Pascal. Это позволило ему запустить модель Qwen3 ASR 1.7B на своём серверном GPU Tesla P40. Результатом стало почти полное аппаратное ускорение и полностью реальное время транскрипции.
Модифицированный форк vLLM доступен по адресу: https://github.com/uaysk/vllm-pascal
Следующие шаги и проблемы
Следующая цель разработчика — попробовать запустить модели Qwen3.5 на этой конфигурации. Однако он отмечает несколько технических проблем. Функциональность зрения, по-видимому, недоступна, и даже использование только текстовых возможностей представляет сложности. На данный момент он не уверен, будет ли это возможно.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Запуск многозадачной команды стартапа на OpenClaw: Настройка и шаблоны
Команда noHuman создала веб-интерфейс, который разворачивает мультиагентные настройки OpenClaw с готовыми шаблонами команд, изолируя каждого агента в своей виртуальной машине с браузером. Они используют простой HTTP-ретранслятор для общения агентов и поддерживают границы ролей для сфокусированной работы.

Внедрение ИИ-агента в команду: Реальный бизнес-кейс
Бизнес делится опытом внедрения своего первого ИИ-агента в качестве полноценного члена команды, который занимается дизайном, кодом, маркетингом и операционной деятельностью, отмечая, что сложности были связаны не с технической настройкой.

Разработчик сжёг токены Opus на $2,500 в OpenClaw: реальные рабочие процессы против инструментов
Владелец софтверной компании рассказывает, как потратил $2500 на токены Opus через OpenClaw, используя его для исправления ошибок, визуальной автоматизации и управления сервером, но задаётся вопросом, что на самом деле означает «рабочий процесс».

Агент OpenClaw AI помогает команде спасти демо-день с помощью быстрого прототипа.
Команда разработчиков использовала ИИ-агент OpenClaw, чтобы создать работающий демо-сайт с тестовыми данными за 10 минут после того, как их смена продукта поставила под угрозу участие в демо-дне South Park Commons.