Krasis: Runtime híbrido CPU/GPU para modelos MoE grandes alcanza 3,324 tok/s en Prefill con RTX 5080

Krasis es un entorno de ejecución híbrido CPU/GPU diseñado específicamente para grandes modelos de Mezcla de Expertos (MoE). El enfoque principal utiliza la GPU para la fase de prellenado computacionalmente costosa, mientras que la CPU maneja la decodificación, con la RAM del sistema proporcionando capacidad adicional para maximizar el rendimiento.
Resultados de Referencia
Configuración RTX 5080:
- Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
- Qwen3-Coder-Next (80B) Q4: 3,324 tokens/s prellenado, 9.7s TTFT (contexto 35K), 14.9 tokens/s decodificación
Configuración EPYC:
- Hardware: AMD EPYC 7742 (64 núcleos), DDR4-2666 8 canales, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
- Qwen3-Coder-Next (80B) Q4: 1,060 tokens/s prellenado, 18.9s TTFT, 15.8 tokens/s decodificación
- Qwen3-Coder-Next (80B) Q8: 873 tokens/s prellenado, 40.1s TTFT, 12.4 tokens/s decodificación
- Qwen3.5-35B-A3B Q4: 1,374 tokens/s prellenado, 14.6s TTFT, 15.0 tokens/s decodificación
- Qwen3-235B-A22B Q4: 289 tokens/s prellenado, 69.1s TTFT, 3.4 tokens/s decodificación
- DeepSeek V2-Lite (16B) Q4: 1,477 tokens/s prellenado, 13.6s TTFT, 20.2 tokens/s decodificación
- DeepSeek V2-Lite (16B) Q8: 1,317 tokens/s prellenado, 15.2s TTFT, 17.8 tokens/s decodificación
Los puntos de referencia utilizaron prompts de 10K–50K tokens para prellenado (se reporta el mejor de 20K/35K/50K) y generación de 64 tokens para decodificación (promedio de 3 ejecuciones).
Cómo Funciona
A diferencia de los entornos de ejecución estándar que descargan solo unas pocas capas a la GPU y ejecutan la mayor parte del modelo en la CPU, Krasis trata a la GPU como un motor de cómputo en flujo. Empuja el modelo a través de la VRAM lo más rápido posible, ocultando las transferencias bajo cómputo concurrente. La GPU maneja la pasada completa de prellenado, luego la CPU maneja la decodificación.
Compensaciones
- Consume mucha RAM: Requiere ~2.5x el peso del modelo cuantizado en RAM del sistema (ej., ~100GB para Qwen3-Coder-Next en Q4)
- Solo tarjetas NVIDIA
- Específicamente dirigido a modelos MoE (la decodificación sería lenta en modelos densos)
- La primera ejecución es lenta debido al preprocesamiento y almacenamiento en caché
- Consume mucho disco: Requiere el archivo original de safetensors BF16 y almacena modelos transcodificados en caché (~2x el tamaño del modelo cuantizado)
Modelos Soportados
Qwen3-Coder-Next (el más probado), Qwen3.5-35B-A3B, Qwen3-235B-A22B, y DeepSeek V2-Lite. Otros modelos próximamente.
Detalles Técnicos
- Escrito en Rust + Python (para orquestación)
- API compatible con OpenAI (funciona con Cursor, OpenCode, etc.)
- Lanzador interactivo para configuración
- Licenciado bajo SSPL (gratuito para usar, modificar, distribuir)
- GitHub: https://github.com/brontoguana/krasis
El desarrollador está buscando comentarios sobre qué modelos soportar a continuación, opiniones sobre las compensaciones, y puntos de referencia de usuarios con tarjetas de la serie 5 y PCIe 5.0.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

nah: Un guardia de permisos sensible al contexto para Claude Code
nah es un gancho PreToolUse que intercepta cada llamada a herramienta en Claude Code, clasificando comandos por tipo de acción como filesystem_read o git_history_rewrite y aplicando políticas basadas en el contexto. Ejecuta un clasificador determinista en milisegundos con escalamiento opcional a LLM para casos ambiguos.

Claude Code Routines mejora el rendimiento de CLI 2.4x en más de 20 PR
Usando las Rutinas de Claude Code en un cron de 2 horas para optimizar autónomamente una CLI de código abierto (Repomix), resultando en más de 20 PR generados automáticamente y una mejora de 2.4x en el tiempo de ejecución.

La habilidad atoship de OpenClaw convierte al asistente de IA en un gestor de envíos.
La habilidad atoship para OpenClaw permite a los usuarios describir sus necesidades de envío en inglés sencillo, luego maneja la selección de transportistas, comparación de tarifas, compra de etiquetas y seguimiento. Los comandos de ejemplo incluyen 'envía esta caja de 1 libra a Nueva York, la opción más económica'.

La bifurcación vllm-mlx añade llamadas a herramientas y caché de prompts para agentes de IA de codificación local.
Un desarrollador ha modificado vllm-mlx para corregir problemas de llamadas a herramientas y agregar caché de prompts, reduciendo el TTFT de 28s a 0.3s para OpenClaw en Apple Silicon. El fork soporta Qwen3-Coder-Next a 65 tok/s en M3 Ultra con llamadas a funciones funcionales.