Schritt 3.5 Flash: Open-Source Deep Thinking für schnelle Inferenz

Schritt 3.5 Flash ist ein Open-Source-Grundlagenmodell, das sich auf die Bereitstellung schneller und zuverlässiger tiefen Denkkapazitäten konzentriert. Es verwendet eine spärliche Mixture of Experts (MoE)-Architektur, die nur 11 Milliarden seiner 196 Milliarden Parameter pro Token aktiviert. Diese selektive Aktivierung verleiht ihm eine hohe "Intelligenzdichte", die es ihm ermöglicht, mit den besten proprietären Modellen zu konkurrieren und dabei agil für Echtzeitanwendungen zu bleiben.

Tiefes Denken und Geschwindigkeit

Das Modell integriert die 3-Wege-Multi-Token-Vorhersage (MTP-3), die ihm ermöglicht, 100 bis 300 Token pro Sekunde zu verarbeiten, mit einem Höchstwert von 350 bei Aufgaben mit Einzel-Stream-Codierung – ideal für komplexes, mehrstufiges Denken mit schneller Reaktionsfähigkeit.

Leistung bei Codierungs- und Agenten-Aufgaben

Schritt 3.5 Flash glänzt bei agentischen Aufgaben, unterstützt durch ein skalierbares Framework für verstärkendes Lernen, das fortlaufende Selbstverbesserung gewährleistet. Es erreichte einen Score von 74,4 % beim SWE-bench Verified-Benchmark und 51,0 % bei Terminal-Bench 2.0, was seine Fähigkeit zur Bewältigung anspruchsvoller, langfristiger Aufgaben widerspiegelt.

Effiziente Verarbeitung langer Kontexte

Es unterstützt ein großes Kontextfenster von 256K mit einem 3:1 Sliding Window Attention (SWA)-Verhältnis und integriert drei SWA-Schichten für jede Full-Attention-Schicht. Diese Methode reduziert den Rechenaufwand im Vergleich zu traditionellen Langkontextmodellen erheblich.

Lokale Bereitstellung und Zugänglichkeit

Schritt 3.5 Flash ist für eine einfache lokale Bereitstellung konzipiert und kann sicher auf High-End-Verbraucherhardware wie Mac Studio M4 Max und NVIDIA DGX Spark ausgeführt werden, was Datenschutz gewährleistet, ohne die Leistung zu beeinträchtigen.

📖 Den vollständigen Artikel lesen: HN AI Agents

Exploring Schritt 3.5 Flash: Open-Source-Modell für schnelles tiefes Denken

👀 Siehe auch

Stanford CS 25 Transformers-Kurs öffnet für die Öffentlichkeit mit Live-Streaming

Claude Opus 4.7 Modellkarte veröffentlicht

Veröffentlichung von Claude-Code v2.1.25: Fehlerbehebung für Validierungsfehler

Nvidia investiert 26 Milliarden Dollar in Open-Weight-KI-Modelle und veröffentlicht Nemotron 3 Super