Cerebras lance les modèles Step-3.5-Flash-REAP avec une réduction de 40 % de la mémoire.

✍️ OpenClawRadar📅 Publié: February 25, 2026🔗 Source
Cerebras lance les modèles Step-3.5-Flash-REAP avec une réduction de 40 % de la mémoire.
Ad

Ce que c'est

Cerebras a publié les modèles Step-3.5-Flash-REAP, des variantes compressées et économes en mémoire de leurs modèles plus grands. Ce sont des versions réduites conçues pour ce que la source appelle des "configurations basiques", bien que le modèle de 121B paramètres nécessite toujours des ressources significatives.

Détails clés de la source

Les modèles sont disponibles sur Hugging Face :

Le modèle Step-3.5-Flash-REAP-121B-A11B est compressé de 196B à 121B paramètres, représentant une réduction de mémoire de 40% tout en maintenant des performances quasi identiques au modèle complet.

La compression utilise REAP (Router-weighted Expert Activation Pruning), décrit comme "une nouvelle méthode d'élagage d'experts qui supprime sélectivement les experts redondants tout en préservant le contrôle indépendant du routeur sur les experts restants".

Ad

Fonctionnalités et capacités

  • Performances quasi sans perte : Maintient une précision presque identique pour la génération de code, le codage agentique et les tâches d'appel de fonction par rapport au modèle complet de 196B
  • Réduction de mémoire de 40% : Compressé de 196B à 121B paramètres, réduisant les coûts de déploiement et les besoins en mémoire
  • Capacités préservées : Conserve toutes les fonctionnalités principales, y compris la génération de code, les mathématiques et le raisonnement, et l'appel d'outils
  • Compatibilité immédiate : Fonctionne avec vLLM standard - aucune modification de la source ou correctif personnalisé requis
  • Optimisé pour un usage réel : Particulièrement efficace pour les environnements aux ressources limitées, les déploiements locaux et la recherche académique

La source note que bien que ce soient des "versions réduites", le modèle de 121B nécessite toujours une configuration assez puissante malgré la compression.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also