vLLM 0.17.0 modificado se ejecuta en Tesla P40 para transcripción en tiempo real con Qwen3 ASR 1.7B

Un desarrollador ha modificado exitosamente vLLM 0.17.0 para ejecutarse en GPUs Tesla P40, permitiendo la transcripción de conferencias en tiempo real con el modelo Qwen3 ASR 1.7B. La P40 utiliza la arquitectura Pascal, que normalmente carece de soporte para motores de inferencia más recientes.
Detalles Clave
El desarrollador estaba trabajando en un proyecto personal para la transcripción de conferencias en tiempo real. Inicialmente planeaba usar el modelo Qwen3 ASR 1.7B, pero descubrió que la transcripción verdaderamente en tiempo real solo es compatible a través de vLLM. En lugar de dividir muestras de audio como alternativa, intentó una modificación experimental.
Usando Codex, modificaron vLLM para ejecutarse en la arquitectura Pascal. Esto les permitió ejecutar el modelo Qwen3 ASR 1.7B en su GPU de servidor Tesla P40. El resultado fue una aceleración por hardware casi completa y una transcripción completamente en tiempo real.
El fork modificado de vLLM está disponible en: https://github.com/uaysk/vllm-pascal
Próximos Pasos y Desafíos
El siguiente objetivo del desarrollador es intentar ejecutar modelos Qwen3.5 en esta configuración. Sin embargo, señalan varios problemas técnicos. La funcionalidad de visión parece no estar disponible, e incluso usar solo las capacidades de texto presenta desafíos. En este punto, no están seguros de si será posible.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Pipeline del Agente OpenClaw Utilizado para Escribir y Publicar Tres Novelas de IA en una Semana
Un desarrollador utilizó OpenClaw para crear un flujo de trabajo de cuatro agentes que escribieron, editaron y publicaron tres novelas completas en Amazon KDP en siete días. La canalización incluyó agentes especializados para escritura, edición, marketing y orquestación.

Usando SkyClaw con Hojas de Cálculo de Google para el Flujo de Trabajo de Solicitud de Empleo
Un usuario de Reddit comparte su flujo de trabajo utilizando el agente SkyClaw de OpenClaw para automatizar tareas de búsqueda de empleo. Configuraron una hoja de cálculo de Google donde el agente añade ofertas de trabajo basadas en su CV, con actualizaciones diarias y notificaciones.

Desarrollador crea aplicación de escritorio en Python de 3,106 líneas con Claude Code en 3 semanas, sin experiencia previa en programación.
Un desarrollador sin conocimientos previos de Python construyó una aplicación de escritorio de 3,106 líneas en tres semanas usando Claude Code, describiendo las funciones sección por sección a través de una conversación de más de 500,000 caracteres. La aplicación maneja obtención de contenido, registro, seguimiento de métricas, investigación, hitos gamificados y activación remota desde un teléfono.

Gestión de Límites de Contexto en Ejecuciones Largas de Claude: Patrón de Árbol AC
Un desarrollador comparte un patrón de fallo en ejecuciones largas de Claude donde la compactación automática causa pérdida de información y los límites de contexto impiden la continuación, luego describe una solución utilizando un grafo de dependencias de árbol AC con sesiones aisladas por nodo.