Krasis vs Llama.cpp: Prellenado 8.9x más rápido y decodificación 4.7x en GPU

Benchmarks de Rendimiento

Krasis demuestra mejoras significativas de rendimiento sobre llama.cpp cuando se ejecuta en hardware equivalente. En una sola GPU 5090 limitada por PCIE 4.0, Krasis muestra:

Velocidad de prellenado 8.9 veces más rápida
Velocidad de decodificación 4.7 veces más rápida

Los resultados específicos de benchmark para Qwen3-Coder-Next muestran a Krasis ejecutándose en una sola GPU 5080 de 16GB logrando:

1801 tokens/seg prellenado
26.8 tokens/seg decodificación

Esto supera a llama.cpp ejecutándose en una GPU 5090 de 32GB con descarga de capas.

Cambios Arquitectónicos

La última versión de Krasis ha eliminado el sistema de doble formato y ahora ejecuta tanto el prellenado como la decodificación completamente en GPU con diferentes estrategias de optimización para cada fase. Este cambio arquitectónico resulta en:

Requisitos reducidos de CPU
Menor dependencia de la velocidad de memoria RAM del sistema
Menor uso general de RAM del sistema (ahora necesita solo suficiente para el modelo cuantizado más algo de sobrecarga, en comparación con el requisito previo de 2.5x del modelo)

Modelos Soportados y Rendimiento

Los modelos actualmente soportados con su rendimiento en una sola GPU 5090 (PCIE 4.0) son:

Qwen3.5-35B-A3B: 4475 prellenado, 109.1 decodificación
Qwen3-Coder-Next: 3560 prellenado, 70.3 decodificación
Qwen3.5-122B-A10B: 2897 prellenado, 27.7 decodificación
Qwen3-235B-A22B: 2124 prellenado, 9.3 decodificación

Planes de Desarrollo Futuro

El desarrollador planea:

Agregar soporte para modelos Nvidia Nemotron, específicamente apuntando a Nemotron Super para GPUs de consumo como la 5080
Posiblemente soportar modelos Nemotron más grandes cuando sean lanzados
Expandir el soporte de IDE y herramientas para Opencode y Aider

Características Actuales

Krasis actualmente ofrece:

Servidor compatible con OpenAI
Instalación de una sola línea
Disponibilidad en GitHub

📖 Leer la fuente completa: r/LocalLLaMA

Krasis LLM Runtime Muestra Mejoras de Velocidad de 8.9x en Prellenado y 4.7x en Decodificación en Comparación con Llama.cpp

Benchmarks de Rendimiento

Cambios Arquitectónicos

Modelos Soportados y Rendimiento

Planes de Desarrollo Futuro

Características Actuales

👀 Ver también

Pipeline de Recapitulación de Películas Local-Primero Usando Whisper + CLIP + Ollama

AIDA: Plataforma de Código Abierto para Pruebas de Penetración Potenciadas por IA

Prompt-Mini: El Complemento de Claude Code Intercepta Indicaciones Vagas para Reducir el Desperdicio de Créditos

HolyClaude: Contenedor de Docker para Claude Code con Interfaz de Usuario de Navegador y Chromium sin Interfaz Gráfica