vLLM 0.17.0 на Tesla P40: Запуск Qwen3 ASR 1.7B

Разработчик успешно модифицировал vLLM 0.17.0 для работы на графических процессорах Tesla P40, что позволило осуществлять транскрипцию лекций в реальном времени с использованием модели Qwen3 ASR 1.7B. P40 использует архитектуру Pascal, которая обычно не поддерживается более новыми механизмами вывода.

Ключевые детали

Разработчик работал над личным проектом по транскрипции лекций в реальном времени. Изначально он планировал использовать модель Qwen3 ASR 1.7B, но обнаружил, что настоящая транскрипция в реальном времени поддерживается только через vLLM. Вместо использования альтернативы с разбиением аудиосэмплов, он попробовал экспериментальную модификацию.

С помощью Codex он модифицировал vLLM для работы на архитектуре Pascal. Это позволило ему запустить модель Qwen3 ASR 1.7B на своём серверном GPU Tesla P40. Результатом стало почти полное аппаратное ускорение и полностью реальное время транскрипции.

Модифицированный форк vLLM доступен по адресу: https://github.com/uaysk/vllm-pascal

Следующие шаги и проблемы

Следующая цель разработчика — попробовать запустить модели Qwen3.5 на этой конфигурации. Однако он отмечает несколько технических проблем. Функциональность зрения, по-видимому, недоступна, и даже использование только текстовых возможностей представляет сложности. На данный момент он не уверен, будет ли это возможно.

📖 Read the full source: r/LocalLLaMA

Модифицированный vLLM 0.17.0 работает на Tesla P40 для транскрипции в реальном времени с использованием Qwen3 ASR 1.7B.

Ключевые детали

Следующие шаги и проблемы

👀 Смотрите также

Искусственный интеллект Claude диагностирует проблему в сети Zigbee и рекомендует перейти с deCONZ на Zigbee2MQTT.

Клод в роли наставника по кодингу: от нуля до готового полнофункционального SaaS за месяц

Клод ИИ создает интерактивную художественную галерею, получив творческую свободу

Тестирование конвейера RAG показывает, что стоимость за токен — не лучший критерий для выбора модели.