DeepSeek-V4 Pro & Flash: 1,6B Parameter, 1M Token Kontext

DeepSeek AI hat eine Vorschau der DeepSeek-V4-Serie auf Hugging Face veröffentlicht. Das Lineup umfasst zwei Mixture-of-Experts (MoE)-Sprachmodelle:

DeepSeek-V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktiv pro Token
DeepSeek-V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv pro Token

Beide Modelle unterstützen eine Kontextlänge von einer Million Token.

Architektonische Verbesserungen

Die V4-Serie führt einen hybriden Aufmerksamkeitsmechanismus ein, der Folgendes kombiniert:

Compressed Sparse Attention (CSA)
Heavily Compressed Attention (HCA)

Bei einer Kontextlänge von 1 Million Token benötigt DeepSeek-V4-Pro nur 27 % der Single-Token-Inferenz-FLOPs und 10 % des KV-Caches im Vergleich zu DeepSeek-V3.2.

Zusätzlich integrieren die Modelle Manifold-Constrained Hyper-Connections (mHC), um residuale Verbindungen zu stärken und die Trainingsstabilität zu verbessern.

Modelldetails

Repository: deepseek-ai/DeepSeek-V4-Pro auf Hugging Face
Pipeline-Tag: text-generation
Auto-Modellklasse: AutoModelForCausalLM
Lizenz: MIT
Gewichte: sharded safetensors, einschließlich BF16, F32, F8_E8M0, F8_E4M3 und INT8-Formaten
Gesamtparameteranzahl aus safetensors: ~862 Milliarden Parameter (wahrscheinlich Summe über alle Experten)

Benchmarks und Effizienz

Der technische Bericht (noch nicht vollständig öffentlich) erwähnt, dass die hybride Aufmerksamkeit die Effizienz bei langen Kontexten drastisch verbessert. Im 1-Millionen-Token-Setting erreicht das Modell eine Reduktion der FLOPs um 73 % und des KV-Caches um 90 % im Vergleich zu V3.2.

Für Entwickler, die langkontextige Anwendungen ausführen (z. B. Dokumentenanalyse, Codebasis-Verständnis, Multi-Turn-Agenten), macht dies DeepSeek-V4 zu einer überzeugenden Wahl, um Kontextlängenbeschränkungen ohne proportionale Rechenkosten zu überwinden.

Zielgruppe

Diese Veröffentlichung richtet sich an Entwickler, die KI-Agenten erstellen, die sehr lange Dokumente, große Codebasen oder Multi-Turn-Gespräche mit vollständiger Kontextbeibehaltung verarbeiten müssen.

📖 Vollständige Quelle lesen: HN AI Agents

DeepSeek-V4 Pro und Flash: 1,6 Billionen Parameter, 1 Million Token-Kontext, Hybride Aufmerksamkeit

Architektonische Verbesserungen

Modelldetails

Benchmarks und Effizienz

Zielgruppe

👀 Siehe auch

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

Apple Core AI Framework: Erster Blick auf Apples aufkommende KI-Agentenbasis

Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen

SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit