Cerebras veröffentlicht Step-3.5-Flash-REAP-Modelle mit 40 % weniger Speicherbedarf.

Was das ist
Cerebras hat Step-3.5-Flash-REAP-Modelle veröffentlicht, die speichereffiziente, komprimierte Varianten ihrer größeren Modelle sind. Dies sind kleinere Versionen, die für das, was die Quelle als "Kartoffel-Setups" bezeichnet, entwickelt wurden, obwohl das 121B-Parameter-Modell immer noch erhebliche Ressourcen erfordert.
Wichtige Details aus der Quelle
Die Modelle sind auf Hugging Face verfügbar:
Das Step-3.5-Flash-REAP-121B-A11B-Modell wird von 196B auf 121B Parameter komprimiert, was einer 40%igen Speicherreduzierung entspricht, während nahezu identische Leistung wie beim vollständigen Modell erhalten bleibt.
Die Komprimierung verwendet REAP (Router-weighted Expert Activation Pruning), das als "eine neuartige Expert-Pruning-Methode, die redundante Experten selektiv entfernt, während die unabhängige Kontrolle des Routers über verbleibende Experten erhalten bleibt" beschrieben wird.
Funktionen und Fähigkeiten
- Nahezu verlustfreie Leistung: Behält nahezu identische Genauigkeit bei Codegenerierung, agentenbasiertem Codieren und Funktionsaufrufaufgaben im Vergleich zum vollständigen 196B-Modell
- 40% Speicherreduzierung: Von 196B auf 121B Parameter komprimiert, senkt Bereitstellungskosten und Speicheranforderungen
- Erhaltene Fähigkeiten: Behält alle Kernfunktionen einschließlich Codegenerierung, Mathematik & Logik und Tool-Aufrufen bei
- Drop-in-Kompatibilität: Funktioniert mit Standard-vLLM - keine Quellmodifikationen oder benutzerdefinierten Patches erforderlich
- Für den realen Einsatz optimiert: Besonders effektiv für ressourcenbeschränkte Umgebungen, lokale Bereitstellungen und akademische Forschung
Die Quelle merkt an, dass dies zwar "kleinere Versionen" sind, das 121B-Modell trotz der Komprimierung immer noch ein ziemlich leistungsstarkes Setup erfordert.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Gemini 3.1 Flash Live: Googles neuestes Audiomodell mit verbesserten Benchmarks und Wasserzeichen
Google hat Gemini 3.1 Flash Live veröffentlicht, ein Audiomodell, das 90,8 % auf dem ComplexFuncBench Audio und 36,1 % auf Scale AIs Audio MultiChallenge erzielt. Es ist über die Gemini Live API in Google AI Studio verfügbar und enthält SynthID-Wasserzeichen.

KI-Ingenieure sind nicht sicher davor, durch KI ersetzt zu werden
Da Basismodelle wie Metas DINO universell einsetzbar werden, geraten spezialisierte KI-Ingenieurrollen unter Druck. Der Autor argumentiert, dass die meisten KI-Ingenieurjobs früher ersetzt werden als andere Entwicklerrollen.

ACP-Fehleruntersuchung: Protokollkonflikt verursacht 'Metadaten fehlen'-Fehler mit lokalem Ollama
Ein bestätigter Fehler in der ACP/OpenClaw-Integration verhindert, dass acpx spawn-Befehle mit lokalen Ollama-Modellen funktionieren, da ein Protokollkonflikt vorliegt: acpx erwartet JSON, erhält aber Textausgaben.

Metas MCI-Tool erfasst Mitarbeiterinteraktionen für KI-Training
Meta installiert eine Tracking-Software namens Model Capability Initiative (MCI) auf den Computern von US-Mitarbeitern, um Mausbewegungen, Tastenanschläge, Klicks und gelegentliche Bildschirmaufnahmen für das Training von KI-Modellen zu erfassen. Die Daten sollen die Fähigkeit der KI verbessern, menschliche Computerinteraktionen wie die Auswahl aus Dropdown-Menüs und die Verwendung von Tastenkombinationen nachzuahmen.