Krasis Runtime Híbrido CPU/GPU: 3,324 tok/s Prefill en RTX 5080

Krasis es un entorno de ejecución híbrido CPU/GPU diseñado específicamente para grandes modelos de Mezcla de Expertos (MoE). El enfoque principal utiliza la GPU para la fase de prellenado computacionalmente costosa, mientras que la CPU maneja la decodificación, con la RAM del sistema proporcionando capacidad adicional para maximizar el rendimiento.

Resultados de Referencia

Configuración RTX 5080:

Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4: 3,324 tokens/s prellenado, 9.7s TTFT (contexto 35K), 14.9 tokens/s decodificación

Configuración EPYC:

Hardware: AMD EPYC 7742 (64 núcleos), DDR4-2666 8 canales, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4: 1,060 tokens/s prellenado, 18.9s TTFT, 15.8 tokens/s decodificación
Qwen3-Coder-Next (80B) Q8: 873 tokens/s prellenado, 40.1s TTFT, 12.4 tokens/s decodificación
Qwen3.5-35B-A3B Q4: 1,374 tokens/s prellenado, 14.6s TTFT, 15.0 tokens/s decodificación
Qwen3-235B-A22B Q4: 289 tokens/s prellenado, 69.1s TTFT, 3.4 tokens/s decodificación
DeepSeek V2-Lite (16B) Q4: 1,477 tokens/s prellenado, 13.6s TTFT, 20.2 tokens/s decodificación
DeepSeek V2-Lite (16B) Q8: 1,317 tokens/s prellenado, 15.2s TTFT, 17.8 tokens/s decodificación

Los puntos de referencia utilizaron prompts de 10K–50K tokens para prellenado (se reporta el mejor de 20K/35K/50K) y generación de 64 tokens para decodificación (promedio de 3 ejecuciones).

Cómo Funciona

A diferencia de los entornos de ejecución estándar que descargan solo unas pocas capas a la GPU y ejecutan la mayor parte del modelo en la CPU, Krasis trata a la GPU como un motor de cómputo en flujo. Empuja el modelo a través de la VRAM lo más rápido posible, ocultando las transferencias bajo cómputo concurrente. La GPU maneja la pasada completa de prellenado, luego la CPU maneja la decodificación.

Compensaciones

Consume mucha RAM: Requiere ~2.5x el peso del modelo cuantizado en RAM del sistema (ej., ~100GB para Qwen3-Coder-Next en Q4)
Solo tarjetas NVIDIA
Específicamente dirigido a modelos MoE (la decodificación sería lenta en modelos densos)
La primera ejecución es lenta debido al preprocesamiento y almacenamiento en caché
Consume mucho disco: Requiere el archivo original de safetensors BF16 y almacena modelos transcodificados en caché (~2x el tamaño del modelo cuantizado)

Modelos Soportados

Qwen3-Coder-Next (el más probado), Qwen3.5-35B-A3B, Qwen3-235B-A22B, y DeepSeek V2-Lite. Otros modelos próximamente.

Detalles Técnicos

Escrito en Rust + Python (para orquestación)
API compatible con OpenAI (funciona con Cursor, OpenCode, etc.)
Lanzador interactivo para configuración
Licenciado bajo SSPL (gratuito para usar, modificar, distribuir)
GitHub: https://github.com/brontoguana/krasis

El desarrollador está buscando comentarios sobre qué modelos soportar a continuación, opiniones sobre las compensaciones, y puntos de referencia de usuarios con tarjetas de la serie 5 y PCIe 5.0.

📖 Read the full source: r/LocalLLaMA

Krasis: Runtime híbrido CPU/GPU para modelos MoE grandes alcanza 3,324 tok/s en Prefill con RTX 5080

Resultados de Referencia

Cómo Funciona

Compensaciones

Modelos Soportados

Detalles Técnicos

👀 Ver también

Caja de Herramientas del Apocalipsis de IA v0.932 agrega evaluación comparativa, creación de conjuntos de datos y espacio de trabajo para agentes de IA local en Android.

SWE-CI: Nuevos Puntos de Referencia Evalúan a los Agentes de IA en el Mantenimiento de Código a Largo Plazo mediante CI

Máquina Virtual Lógica: Un Sistema Basado en Prompts para Detener los Colapsos del Razonamiento en LLM

La habilidad de escaneo de seguridad para agentes de codificación de IA verifica implementaciones automáticamente.