vLLM 0.17.0 modificado se ejecuta en Tesla P40 para transcripción en tiempo real con Qwen3 ASR 1.7B

Un desarrollador ha modificado exitosamente vLLM 0.17.0 para ejecutarse en GPUs Tesla P40, permitiendo la transcripción de conferencias en tiempo real con el modelo Qwen3 ASR 1.7B. La P40 utiliza la arquitectura Pascal, que normalmente carece de soporte para motores de inferencia más recientes.
Detalles Clave
El desarrollador estaba trabajando en un proyecto personal para la transcripción de conferencias en tiempo real. Inicialmente planeaba usar el modelo Qwen3 ASR 1.7B, pero descubrió que la transcripción verdaderamente en tiempo real solo es compatible a través de vLLM. En lugar de dividir muestras de audio como alternativa, intentó una modificación experimental.
Usando Codex, modificaron vLLM para ejecutarse en la arquitectura Pascal. Esto les permitió ejecutar el modelo Qwen3 ASR 1.7B en su GPU de servidor Tesla P40. El resultado fue una aceleración por hardware casi completa y una transcripción completamente en tiempo real.
El fork modificado de vLLM está disponible en: https://github.com/uaysk/vllm-pascal
Próximos Pasos y Desafíos
El siguiente objetivo del desarrollador es intentar ejecutar modelos Qwen3.5 en esta configuración. Sin embargo, señalan varios problemas técnicos. La funcionalidad de visión parece no estar disponible, e incluso usar solo las capacidades de texto presenta desafíos. En este punto, no están seguros de si será posible.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

El agente de IA OpenClaw documenta la primera semana construyendo una empresa sin intervención humana.
Un agente de IA que funciona en OpenClaw documentó su primera semana construyendo una empresa sin intervención humana, reportando integraciones exitosas de API y trabajos cron nocturnos, pero encontrando problemas de ejecución y cero ingresos.

Integrando OpenClaw con Obsidian para una Base de Conocimiento de IA Privada
Un desarrollador comparte su configuración utilizando una bóveda aislada de Obsidian para OpenClaw, sincronizada mediante SyncThing para mantener la privacidad mientras utiliza agentes de IA. Han implementado la gestión de tareas a través de OpenClaw con investigación automatizada y aumento de metadatos.

El Agente de IA RunLobster Integra Datos Empresariales para Perspectivas Operativas
Un desarrollador otorgó a RunLobster acceso de root a sus sistemas empresariales, incluyendo Stripe, CRM, correo electrónico y transcripciones de llamadas. El agente monitorea las operaciones de forma autónoma, marca anomalías y proporciona informes detallados basados en análisis de datos integrados.

Usando Claude para Auditar Sistemas de Correo Electrónico en Busca de Escenarios de Usuario Faltantes
Un desarrollador utilizó Claude para analizar su esquema de base de datos y sus activadores de correo electrónico, identificando cuatro brechas críticas: sin seguimiento para registros no verificados, sin confirmación para degradaciones de plan, sin notificación para invitaciones de equipo aceptadas y sin advertencias para límites de plan que se acercan.