Krasis LLM Runtime Muestra Mejoras de Velocidad de 8.9x en Prellenado y 4.7x en Decodificación en Comparación con Llama.cpp

Benchmarks de Rendimiento
Krasis demuestra mejoras significativas de rendimiento sobre llama.cpp cuando se ejecuta en hardware equivalente. En una sola GPU 5090 limitada por PCIE 4.0, Krasis muestra:
- Velocidad de prellenado 8.9 veces más rápida
- Velocidad de decodificación 4.7 veces más rápida
Los resultados específicos de benchmark para Qwen3-Coder-Next muestran a Krasis ejecutándose en una sola GPU 5080 de 16GB logrando:
- 1801 tokens/seg prellenado
- 26.8 tokens/seg decodificación
Esto supera a llama.cpp ejecutándose en una GPU 5090 de 32GB con descarga de capas.
Cambios Arquitectónicos
La última versión de Krasis ha eliminado el sistema de doble formato y ahora ejecuta tanto el prellenado como la decodificación completamente en GPU con diferentes estrategias de optimización para cada fase. Este cambio arquitectónico resulta en:
- Requisitos reducidos de CPU
- Menor dependencia de la velocidad de memoria RAM del sistema
- Menor uso general de RAM del sistema (ahora necesita solo suficiente para el modelo cuantizado más algo de sobrecarga, en comparación con el requisito previo de 2.5x del modelo)
Modelos Soportados y Rendimiento
Los modelos actualmente soportados con su rendimiento en una sola GPU 5090 (PCIE 4.0) son:
- Qwen3.5-35B-A3B: 4475 prellenado, 109.1 decodificación
- Qwen3-Coder-Next: 3560 prellenado, 70.3 decodificación
- Qwen3.5-122B-A10B: 2897 prellenado, 27.7 decodificación
- Qwen3-235B-A22B: 2124 prellenado, 9.3 decodificación
Planes de Desarrollo Futuro
El desarrollador planea:
- Agregar soporte para modelos Nvidia Nemotron, específicamente apuntando a Nemotron Super para GPUs de consumo como la 5080
- Posiblemente soportar modelos Nemotron más grandes cuando sean lanzados
- Expandir el soporte de IDE y herramientas para Opencode y Aider
Características Actuales
Krasis actualmente ofrece:
- Servidor compatible con OpenAI
- Instalación de una sola línea
- Disponibilidad en GitHub
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Sistema de Código Abierto Captura Patrones de Código Claude en Documentación en Evolución
El desarrollador Lee Fuhr ha publicado tres repositorios de código abierto que capturan y codifican sistemáticamente los aprendizajes obtenidos al trabajar con Claude Code. El sistema incluye un documento metodológico con 14 principios y 19 patrones, un marco de clasificación de arquitectura y un sistema de memoria con 149 características.

El complemento OpenClaw Context Meter muestra el porcentaje de uso del token de Telegram.
Un nuevo complemento de OpenClaw muestra el porcentaje de uso de tokens después de cada respuesta del bot de Telegram, mostrando valores como '45k / 200k (22%)' y detectando eventos de compactación. El complemento evita problemas de OOM al codificar ventanas de contexto en lugar de usar execSync.

Biblioteca de Registro de Artículo 12 de Código Abierto para el Cumplimiento de la Ley de IA de la UE
Una biblioteca gratuita y de código abierto en TypeScript para aplicaciones Node.js que utilizan Vercel AI SDK, que implementa los requisitos de registro del Artículo 12 con registros JSONL de solo anexo, encadenamiento de hash SHA-256 para detección de manipulaciones y aplicación de retención de 180 días.

Compactador de Garras: motor de compresión de tokens de 14 etapas para canalizaciones de LLM
Claw Compactor es un motor de compresión de tokens LLM de código abierto que utiliza una Tubería de Fusión de 14 etapas para lograr una compresión promedio del 54% con costo cero de inferencia LLM. Incluye compresores especializados para código, JSON, registros, diferencias y resultados de búsqueda con capacidades de compresión reversible.