Cerebras veröffentlicht Step-3.5-Flash-REAP-Modelle mit 40 % weniger Speicherbedarf.

✍️ OpenClawRadar📅 Veröffentlicht: 25. Februar 2026🔗 Source
Cerebras veröffentlicht Step-3.5-Flash-REAP-Modelle mit 40 % weniger Speicherbedarf.
Ad

Was das ist

Cerebras hat Step-3.5-Flash-REAP-Modelle veröffentlicht, die speichereffiziente, komprimierte Varianten ihrer größeren Modelle sind. Dies sind kleinere Versionen, die für das, was die Quelle als "Kartoffel-Setups" bezeichnet, entwickelt wurden, obwohl das 121B-Parameter-Modell immer noch erhebliche Ressourcen erfordert.

Wichtige Details aus der Quelle

Die Modelle sind auf Hugging Face verfügbar:

Das Step-3.5-Flash-REAP-121B-A11B-Modell wird von 196B auf 121B Parameter komprimiert, was einer 40%igen Speicherreduzierung entspricht, während nahezu identische Leistung wie beim vollständigen Modell erhalten bleibt.

Die Komprimierung verwendet REAP (Router-weighted Expert Activation Pruning), das als "eine neuartige Expert-Pruning-Methode, die redundante Experten selektiv entfernt, während die unabhängige Kontrolle des Routers über verbleibende Experten erhalten bleibt" beschrieben wird.

Ad

Funktionen und Fähigkeiten

  • Nahezu verlustfreie Leistung: Behält nahezu identische Genauigkeit bei Codegenerierung, agentenbasiertem Codieren und Funktionsaufrufaufgaben im Vergleich zum vollständigen 196B-Modell
  • 40% Speicherreduzierung: Von 196B auf 121B Parameter komprimiert, senkt Bereitstellungskosten und Speicheranforderungen
  • Erhaltene Fähigkeiten: Behält alle Kernfunktionen einschließlich Codegenerierung, Mathematik & Logik und Tool-Aufrufen bei
  • Drop-in-Kompatibilität: Funktioniert mit Standard-vLLM - keine Quellmodifikationen oder benutzerdefinierten Patches erforderlich
  • Für den realen Einsatz optimiert: Besonders effektiv für ressourcenbeschränkte Umgebungen, lokale Bereitstellungen und akademische Forschung

Die Quelle merkt an, dass dies zwar "kleinere Versionen" sind, das 121B-Modell trotz der Komprimierung immer noch ein ziemlich leistungsstarkes Setup erfordert.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Einschränkungszerfall: Warum LLM-Agenten bei strukturiertem Backend-Code scheitern
Nachrichten

Einschränkungszerfall: Warum LLM-Agenten bei strukturiertem Backend-Code scheitern

Neue Forschung führt 'Constraint Decay' ein: Wenn strukturelle Anforderungen steigen, fällt die Leistung von LLM-Agenten drastisch – fähige Agenten verlieren 30 Punkte bei Assertion-Pass-Raten, schwächere fallen fast auf null. Umsetzbare Erkenntnisse für alle, die KI-Coding-Agenten nutzen.

OpenClawRadar
GitHub Copilot aktualisiert Datennutzungsrichtlinie für Modelltraining
Nachrichten

GitHub Copilot aktualisiert Datennutzungsrichtlinie für Modelltraining

GitHub wird ab dem 24. April 2026 Interaktionsdaten von Copilot Free-, Pro- und Pro+-Nutzern zur Schulung von KI-Modellen verwenden, sofern Nutzer nicht widersprechen. Copilot Business- und Enterprise-Nutzer sind von dieser Änderung ausgenommen.

OpenClawRadar
Claude Cowork vereinheitlicht Slash-Befehle und Fähigkeiten unter einem einzigen Konzept.
Nachrichten

Claude Cowork vereinheitlicht Slash-Befehle und Fähigkeiten unter einem einzigen Konzept.

Claude Cowork hat Slash-Befehle und Skills unter einem einheitlichen Konzept namens 'Skills' zusammengefasst und damit separate Überschriften im /-Menü eliminiert. Legacy-Befehle funktionieren weiterhin wie zuvor.

OpenClawRadar
Claude Code v2.1.146: /code-review-Befehl, Paginierungs-Korrektur, Windows-PowerShell-Korrektur
Nachrichten

Claude Code v2.1.146: /code-review-Befehl, Paginierungs-Korrektur, Windows-PowerShell-Korrektur

Claude Code v2.1.146 benennt /simplify in /code-review um, mit optionalem Aufwandslevel, behebt MCP-Paginierung und Windows PowerShell-Tool, verbessert die Zuverlässigkeit des Auto-Updaters und die Diff-Rendering-Leistung.

OpenClawRadar