Krasis LLM Runtime Muestra Mejoras de Velocidad de 8.9x en Prellenado y 4.7x en Decodificación en Comparación con Llama.cpp

Benchmarks de Rendimiento
Krasis demuestra mejoras significativas de rendimiento sobre llama.cpp cuando se ejecuta en hardware equivalente. En una sola GPU 5090 limitada por PCIE 4.0, Krasis muestra:
- Velocidad de prellenado 8.9 veces más rápida
- Velocidad de decodificación 4.7 veces más rápida
Los resultados específicos de benchmark para Qwen3-Coder-Next muestran a Krasis ejecutándose en una sola GPU 5080 de 16GB logrando:
- 1801 tokens/seg prellenado
- 26.8 tokens/seg decodificación
Esto supera a llama.cpp ejecutándose en una GPU 5090 de 32GB con descarga de capas.
Cambios Arquitectónicos
La última versión de Krasis ha eliminado el sistema de doble formato y ahora ejecuta tanto el prellenado como la decodificación completamente en GPU con diferentes estrategias de optimización para cada fase. Este cambio arquitectónico resulta en:
- Requisitos reducidos de CPU
- Menor dependencia de la velocidad de memoria RAM del sistema
- Menor uso general de RAM del sistema (ahora necesita solo suficiente para el modelo cuantizado más algo de sobrecarga, en comparación con el requisito previo de 2.5x del modelo)
Modelos Soportados y Rendimiento
Los modelos actualmente soportados con su rendimiento en una sola GPU 5090 (PCIE 4.0) son:
- Qwen3.5-35B-A3B: 4475 prellenado, 109.1 decodificación
- Qwen3-Coder-Next: 3560 prellenado, 70.3 decodificación
- Qwen3.5-122B-A10B: 2897 prellenado, 27.7 decodificación
- Qwen3-235B-A22B: 2124 prellenado, 9.3 decodificación
Planes de Desarrollo Futuro
El desarrollador planea:
- Agregar soporte para modelos Nvidia Nemotron, específicamente apuntando a Nemotron Super para GPUs de consumo como la 5080
- Posiblemente soportar modelos Nemotron más grandes cuando sean lanzados
- Expandir el soporte de IDE y herramientas para Opencode y Aider
Características Actuales
Krasis actualmente ofrece:
- Servidor compatible con OpenAI
- Instalación de una sola línea
- Disponibilidad en GitHub
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Pipeline de Recapitulación de Películas Local-Primero Usando Whisper + CLIP + Ollama
Un pipeline completamente local que genera automáticamente videos de resúmenes narrados de películas usando Whisper, CLIP, Ollama, Edge TTS y FFmpeg. Introduce un archivo de película y obtén un resumen narrado en aproximadamente 15 minutos.

AIDA: Plataforma de Código Abierto para Pruebas de Penetración Potenciadas por IA
AIDA es una plataforma de código abierto que proporciona a los agentes de IA un entorno completo de pruebas de penetración mediante conexión MCP a un contenedor Docker. La última versión reemplaza el requisito de 40GB de Exegol con un contenedor específico de 1GB que contiene herramientas de seguridad esenciales.

Prompt-Mini: El Complemento de Claude Code Intercepta Indicaciones Vagas para Reducir el Desperdicio de Créditos
Prompt-mini es un complemento de Claude Code que intercepta indicaciones vagas antes de su ejecución, formula preguntas aclaratorias y construye indicaciones estructuradas con detección de pila y reglas específicas para más de 40 marcos de trabajo. La herramienta aborda 35 patrones que consumen créditos, como la falta de alcance, condiciones de parada y rutas de archivo.

HolyClaude: Contenedor de Docker para Claude Code con Interfaz de Usuario de Navegador y Chromium sin Interfaz Gráfica
HolyClaude es un contenedor Docker de código abierto que empaqueta la CLI de Claude Code con una interfaz de usuario basada en navegador, Chromium sin interfaz gráfica y herramientas adicionales de codificación con IA. La configuración solo requiere ejecutar docker compose up y proporciona acceso en localhost:3001.