Cerebras veröffentlicht Step-3.5-Flash-REAP-Modelle mit 40 % weniger Speicherbedarf.

✍️ OpenClawRadar📅 Veröffentlicht: 25. Februar 2026🔗 Source

Was das ist

Cerebras hat Step-3.5-Flash-REAP-Modelle veröffentlicht, die speichereffiziente, komprimierte Varianten ihrer größeren Modelle sind. Dies sind kleinere Versionen, die für das, was die Quelle als "Kartoffel-Setups" bezeichnet, entwickelt wurden, obwohl das 121B-Parameter-Modell immer noch erhebliche Ressourcen erfordert.

Wichtige Details aus der Quelle

Die Modelle sind auf Hugging Face verfügbar:

Das Step-3.5-Flash-REAP-121B-A11B-Modell wird von 196B auf 121B Parameter komprimiert, was einer 40%igen Speicherreduzierung entspricht, während nahezu identische Leistung wie beim vollständigen Modell erhalten bleibt.

Die Komprimierung verwendet REAP (Router-weighted Expert Activation Pruning), das als "eine neuartige Expert-Pruning-Methode, die redundante Experten selektiv entfernt, während die unabhängige Kontrolle des Routers über verbleibende Experten erhalten bleibt" beschrieben wird.

Funktionen und Fähigkeiten

Nahezu verlustfreie Leistung: Behält nahezu identische Genauigkeit bei Codegenerierung, agentenbasiertem Codieren und Funktionsaufrufaufgaben im Vergleich zum vollständigen 196B-Modell
40% Speicherreduzierung: Von 196B auf 121B Parameter komprimiert, senkt Bereitstellungskosten und Speicheranforderungen
Erhaltene Fähigkeiten: Behält alle Kernfunktionen einschließlich Codegenerierung, Mathematik & Logik und Tool-Aufrufen bei
Drop-in-Kompatibilität: Funktioniert mit Standard-vLLM - keine Quellmodifikationen oder benutzerdefinierten Patches erforderlich
Für den realen Einsatz optimiert: Besonders effektiv für ressourcenbeschränkte Umgebungen, lokale Bereitstellungen und akademische Forschung

Die Quelle merkt an, dass dies zwar "kleinere Versionen" sind, das 121B-Modell trotz der Komprimierung immer noch ein ziemlich leistungsstarkes Setup erfordert.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Claude CLI-Richtlinienabweichungsproblem von Entwickler gemeldet

Ein Entwickler berichtet, dass Claude CLI konsequent Projektrichtlinien ignoriert, die in Dateien des .claude-Ordners gespeichert sind, insbesondere nach automatischen Komprimierungsvorgängen. Das Tool führt verbotene Hintergrundprozesse aus und löscht Aufgaben-/Sitzungsdaten trotz ausdrücklicher Anweisungen.

19. Apr. 2026, 23:45 UTC

OpenClawRadar

Nachrichten

Claude Code v2.1.193: Neue Shell-Klassifizierung, Telemetrie und Fehlerbehebungen

Claude Code v2.1.193 führt autoMode.classifyAllShell ein, um alle Shell-Befehle durch den Klassifizierer zu leiten, neue OpenTelemetry-Log-Ereignisse, Live-Dateipfad-Autovervollständigung im Bash-Modus sowie Fehlerbehebungen für Hintergrund-Agents und MCP-Authentifizierung.

26. Juni 2026, 00:15 UTC

OpenClawRadar

Nachrichten

Claude Code übernimmt die Entfernung des QNX Big Kernel Locks, beginnend mit Benutzerraum-Kontentionsstatistiken

Ein Entwickler bat Claude Code, den QNX-Microkernel umzugestalten, um den Big Kernel Lock zu entfernen. Claude schätzte 3 Monate für einen Top-Entwickler und begann dann damit, /proc-ähnliche Locking-Statistiken zu entwerfen und Kernel-Subsysteme nacheinander zu reparieren.

30. Apr. 2026, 22:20 UTC

OpenClawRadar

Nachrichten

Qwen3.5-122B auf Blackwell SM120: fp8-KV-Cache-Korruptionsproblem und Leistungsbefunde

Tests von Qwen3.5-122B auf 8x RTX PRO 6000 Blackwell-Hardware ergaben, dass der fp8_e4m3-KV-Cache stillschweigend fehlerhafte Ausgaben ohne Fehlermeldungen erzeugt, sodass stattdessen ein bf16-KV-Cache erforderlich ist. Die MTP-Optimierung brachte eine 2,75-fache Beschleunigung bei Einzelanfragen, während DeltaNet-Einschränkungen andere Optimierungen blockierten.

1. März 2026, 05:45 UTC

OpenClawRadar