vLLM 0.17.0 mod: ejecutar en Tesla P40 con Qwen3 ASR 1.7B

Un desarrollador ha modificado exitosamente vLLM 0.17.0 para ejecutarse en GPUs Tesla P40, permitiendo la transcripción de conferencias en tiempo real con el modelo Qwen3 ASR 1.7B. La P40 utiliza la arquitectura Pascal, que normalmente carece de soporte para motores de inferencia más recientes.

Detalles Clave

El desarrollador estaba trabajando en un proyecto personal para la transcripción de conferencias en tiempo real. Inicialmente planeaba usar el modelo Qwen3 ASR 1.7B, pero descubrió que la transcripción verdaderamente en tiempo real solo es compatible a través de vLLM. En lugar de dividir muestras de audio como alternativa, intentó una modificación experimental.

Usando Codex, modificaron vLLM para ejecutarse en la arquitectura Pascal. Esto les permitió ejecutar el modelo Qwen3 ASR 1.7B en su GPU de servidor Tesla P40. El resultado fue una aceleración por hardware casi completa y una transcripción completamente en tiempo real.

El fork modificado de vLLM está disponible en: https://github.com/uaysk/vllm-pascal

Próximos Pasos y Desafíos

El siguiente objetivo del desarrollador es intentar ejecutar modelos Qwen3.5 en esta configuración. Sin embargo, señalan varios problemas técnicos. La funcionalidad de visión parece no estar disponible, e incluso usar solo las capacidades de texto presenta desafíos. En este punto, no están seguros de si será posible.

📖 Read the full source: r/LocalLLaMA

vLLM 0.17.0 modificado se ejecuta en Tesla P40 para transcripción en tiempo real con Qwen3 ASR 1.7B

Detalles Clave

Próximos Pasos y Desafíos

👀 Ver también

Conoce a Claude: Una Novela Visual Creada Completamente por IA

Usar IA para Mejorar Herramientas Empresariales Existentes Como Jira

Utilicé OpenClaw para corregir el script de seguimiento de gastos: detecté una lógica de suscripción que había pasado por alto

Claude + Remotion: Creando un video de lanzamiento de producto sin habilidades de animación