Cerebras lanza modelos Step-3.5-Flash-REAP con una reducción de memoria del 40%.

✍️ OpenClawRadar📅 Publicado: 25 de febrero de 2026🔗 Source
Cerebras lanza modelos Step-3.5-Flash-REAP con una reducción de memoria del 40%.
Ad

Qué es esto

Cerebras ha lanzado los modelos Step-3.5-Flash-REAP, que son variantes comprimidas y eficientes en memoria de sus modelos más grandes. Estas son versiones más pequeñas diseñadas para lo que la fuente llama "configuraciones básicas", aunque el modelo de 121B parámetros aún requiere recursos significativos.

Detalles clave de la fuente

Los modelos están disponibles en Hugging Face:

El modelo Step-3.5-Flash-REAP-121B-A11B se comprime de 196B a 121B parámetros, lo que representa una reducción de memoria del 40% manteniendo un rendimiento casi idéntico al modelo completo.

La compresión utiliza REAP (Router-weighted Expert Activation Pruning), descrito como "un novedoso método de poda de expertos que elimina selectivamente expertos redundantes mientras preserva el control independiente del enrutador sobre los expertos restantes".

Ad

Características y capacidades

  • Rendimiento casi sin pérdidas: Mantiene una precisión casi idéntica en generación de código, codificación agentiva y tareas de llamadas a funciones en comparación con el modelo completo de 196B
  • Reducción de memoria del 40%: Comprimido de 196B a 121B parámetros, reduciendo costos de implementación y requisitos de memoria
  • Capacidades preservadas: Conserva todas las funcionalidades principales incluyendo generación de código, matemáticas y razonamiento, y llamadas a herramientas
  • Compatibilidad inmediata: Funciona con vLLM estándar - no se requieren modificaciones de fuente o parches personalizados
  • Optimizado para uso real: Particularmente efectivo para entornos con recursos limitados, implementaciones locales e investigación académica

La fuente señala que aunque estas son "versiones más pequeñas", el modelo de 121B aún requiere una configuración bastante potente a pesar de la compresión.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

La publicación de Reddit analiza los bucles de reparación interna para la IA creativa sin código.
Noticias

La publicación de Reddit analiza los bucles de reparación interna para la IA creativa sin código.

Una publicación de Reddit argumenta que los sistemas de IA creativa sin código necesitan mecanismos de reparación interna para manejar fallos de sentido común, como estructuras mecánicas imposibles o anatomía distorsionada, en lugar de hacer que los usuarios depuren las salidas.

OpenClawRadar
Claude Code 2.1.80 agrega visibilidad de límites de tasa, mensajería push MCP y mejoras de memoria.
Noticias

Claude Code 2.1.80 agrega visibilidad de límites de tasa, mensajería push MCP y mejoras de memoria.

Claude Code versión 2.1.80 introduce visibilidad de límites de tasa en la barra de estado, mensajería push MCP mediante la bandera --channels, configuración de plugins en línea y reduce el uso de memoria en 80MB al inicio.

OpenClawRadar
Reimplementación de IA de la Biblioteca chardet Plantea Cuestiones de Licencias Copyleft
Noticias

Reimplementación de IA de la Biblioteca chardet Plantea Cuestiones de Licencias Copyleft

Dan Blanchard utilizó Claude de Anthropic para reimplementar desde cero la biblioteca Python chardet, cambiando la licencia de LGPL a MIT. El código resultante muestra menos del 1.3% de similitud con versiones anteriores, generando debate sobre si la reimplementación asistida por IA erosiona las protecciones copyleft.

OpenClawRadar
OpenClaw 2026.4.2 y 2026.3.31 interrumpen las conexiones de LLM locales.
Noticias

OpenClaw 2026.4.2 y 2026.3.31 interrumpen las conexiones de LLM locales.

Las versiones 2026.4.2 y 2026.3.31 de OpenClaw están causando tiempos de espera en la conexión a instancias de Ollama alojadas localmente. El problema aparece al conectarse a máquinas Ubuntu ejecutadas localmente, con registros de error que muestran tiempos de espera en solicitudes LLM y decisiones de conmutación por error.

OpenClawRadar