Модифицированный vLLM 0.17.0 работает на Tesla P40 для транскрипции в реальном времени с использованием Qwen3 ASR 1.7B.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Модифицированный vLLM 0.17.0 работает на Tesla P40 для транскрипции в реальном времени с использованием Qwen3 ASR 1.7B.
Ad

Разработчик успешно модифицировал vLLM 0.17.0 для работы на графических процессорах Tesla P40, что позволило осуществлять транскрипцию лекций в реальном времени с использованием модели Qwen3 ASR 1.7B. P40 использует архитектуру Pascal, которая обычно не поддерживается более новыми механизмами вывода.

Ключевые детали

Разработчик работал над личным проектом по транскрипции лекций в реальном времени. Изначально он планировал использовать модель Qwen3 ASR 1.7B, но обнаружил, что настоящая транскрипция в реальном времени поддерживается только через vLLM. Вместо использования альтернативы с разбиением аудиосэмплов, он попробовал экспериментальную модификацию.

С помощью Codex он модифицировал vLLM для работы на архитектуре Pascal. Это позволило ему запустить модель Qwen3 ASR 1.7B на своём серверном GPU Tesla P40. Результатом стало почти полное аппаратное ускорение и полностью реальное время транскрипции.

Модифицированный форк vLLM доступен по адресу: https://github.com/uaysk/vllm-pascal

Ad

Следующие шаги и проблемы

Следующая цель разработчика — попробовать запустить модели Qwen3.5 на этой конфигурации. Однако он отмечает несколько технических проблем. Функциональность зрения, по-видимому, недоступна, и даже использование только текстовых возможностей представляет сложности. На данный момент он не уверен, будет ли это возможно.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Запуск многозадачной команды стартапа на OpenClaw: Настройка и шаблоны
Кейсы

Запуск многозадачной команды стартапа на OpenClaw: Настройка и шаблоны

Команда noHuman создала веб-интерфейс, который разворачивает мультиагентные настройки OpenClaw с готовыми шаблонами команд, изолируя каждого агента в своей виртуальной машине с браузером. Они используют простой HTTP-ретранслятор для общения агентов и поддерживают границы ролей для сфокусированной работы.

OpenClawRadar
Внедрение ИИ-агента в команду: Реальный бизнес-кейс
Кейсы

Внедрение ИИ-агента в команду: Реальный бизнес-кейс

Бизнес делится опытом внедрения своего первого ИИ-агента в качестве полноценного члена команды, который занимается дизайном, кодом, маркетингом и операционной деятельностью, отмечая, что сложности были связаны не с технической настройкой.

OpenClawRadar
Разработчик сжёг токены Opus на $2,500 в OpenClaw: реальные рабочие процессы против инструментов
Кейсы

Разработчик сжёг токены Opus на $2,500 в OpenClaw: реальные рабочие процессы против инструментов

Владелец софтверной компании рассказывает, как потратил $2500 на токены Opus через OpenClaw, используя его для исправления ошибок, визуальной автоматизации и управления сервером, но задаётся вопросом, что на самом деле означает «рабочий процесс».

OpenClawRadar
Агент OpenClaw AI помогает команде спасти демо-день с помощью быстрого прототипа.
Кейсы

Агент OpenClaw AI помогает команде спасти демо-день с помощью быстрого прототипа.

Команда разработчиков использовала ИИ-агент OpenClaw, чтобы создать работающий демо-сайт с тестовыми данными за 10 минут после того, как их смена продукта поставила под угрозу участие в демо-дне South Park Commons.

OpenClawRadar