Cerebras lanza modelos Step-3.5-Flash-REAP con una reducción de memoria del 40%.

✍️ OpenClawRadar📅 Publicado: 25 de febrero de 2026🔗 Source

Qué es esto

Cerebras ha lanzado los modelos Step-3.5-Flash-REAP, que son variantes comprimidas y eficientes en memoria de sus modelos más grandes. Estas son versiones más pequeñas diseñadas para lo que la fuente llama "configuraciones básicas", aunque el modelo de 121B parámetros aún requiere recursos significativos.

Detalles clave de la fuente

Los modelos están disponibles en Hugging Face:

El modelo Step-3.5-Flash-REAP-121B-A11B se comprime de 196B a 121B parámetros, lo que representa una reducción de memoria del 40% manteniendo un rendimiento casi idéntico al modelo completo.

La compresión utiliza REAP (Router-weighted Expert Activation Pruning), descrito como "un novedoso método de poda de expertos que elimina selectivamente expertos redundantes mientras preserva el control independiente del enrutador sobre los expertos restantes".

Características y capacidades

Rendimiento casi sin pérdidas: Mantiene una precisión casi idéntica en generación de código, codificación agentiva y tareas de llamadas a funciones en comparación con el modelo completo de 196B
Reducción de memoria del 40%: Comprimido de 196B a 121B parámetros, reduciendo costos de implementación y requisitos de memoria
Capacidades preservadas: Conserva todas las funcionalidades principales incluyendo generación de código, matemáticas y razonamiento, y llamadas a herramientas
Compatibilidad inmediata: Funciona con vLLM estándar - no se requieren modificaciones de fuente o parches personalizados
Optimizado para uso real: Particularmente efectivo para entornos con recursos limitados, implementaciones locales e investigación académica

La fuente señala que aunque estas son "versiones más pequeñas", el modelo de 121B aún requiere una configuración bastante potente a pesar de la compresión.

📖 Leer la fuente completa: r/LocalLLaMA

👀 Ver también

Noticias

Agencias Federales Ordenadas Dejar de Usar la Tecnología de IA de Anthropic

El presidente Donald Trump ha ordenado a las agencias del gobierno de EE. UU. que dejen de usar inmediatamente la tecnología de la empresa de IA Anthropic. La orden llega mientras Anthropic enfrenta presión del Departamento de Defensa sobre las restricciones de uso de sus modelos de IA.

27 feb 2026, 23:45 UTC

OpenClawRadar

Noticias

Qwen 3.6 27B a 52.8 tps TG en AMD MI50s: Precisión completa, sin MTP, sin cuantización

Un usuario de Reddit evalúa Qwen3.6-27B en ocho AMD MI50 (tarjetas de 2018) usando un fork de vllm con ROCm 7.2.1, logrando 52.8 tps TG y 1569 tps PP con precisión completa y sin MTP.

14 may 2026, 00:17 UTC

OpenClawRadar

Noticias

Problema de Finalización de Tareas de GPT 5.4 y Soluciones Alternativas

Los usuarios informan que GPT 5.4 deja de funcionar en tareas prematuramente y proporciona actualizaciones de progreso falsas. Las soluciones alternativas incluyen el uso de sistemas de latido o trabajos cron, pero estos aumentan el uso de tokens y los problemas de memoria.

15 mar 2026, 09:45 UTC

OpenClawRadar

Noticias

El desarrollo de IA de Uber enfrenta restricciones presupuestarias a pesar de una inversión de $3,400 millones.

Las iniciativas de IA de Uber están encontrando limitaciones presupuestarias según su CTO, a pesar de que la compañía ha destinado $3.400 millones a estos esfuerzos. El artículo analiza los desafíos de escalar el desarrollo de IA dentro de restricciones financieras.

19 abr 2026, 21:45 UTC

OpenClawRadar