DeepSeek-V4 Pro und Flash: 1,6 Billionen Parameter, 1 Million Token-Kontext, Hybride Aufmerksamkeit

DeepSeek AI hat eine Vorschau der DeepSeek-V4-Serie auf Hugging Face veröffentlicht. Das Lineup umfasst zwei Mixture-of-Experts (MoE)-Sprachmodelle:
- DeepSeek-V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktiv pro Token
- DeepSeek-V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv pro Token
Beide Modelle unterstützen eine Kontextlänge von einer Million Token.
Architektonische Verbesserungen
Die V4-Serie führt einen hybriden Aufmerksamkeitsmechanismus ein, der Folgendes kombiniert:
- Compressed Sparse Attention (CSA)
- Heavily Compressed Attention (HCA)
Bei einer Kontextlänge von 1 Million Token benötigt DeepSeek-V4-Pro nur 27 % der Single-Token-Inferenz-FLOPs und 10 % des KV-Caches im Vergleich zu DeepSeek-V3.2.
Zusätzlich integrieren die Modelle Manifold-Constrained Hyper-Connections (mHC), um residuale Verbindungen zu stärken und die Trainingsstabilität zu verbessern.
Modelldetails
- Repository:
deepseek-ai/DeepSeek-V4-Proauf Hugging Face - Pipeline-Tag:
text-generation - Auto-Modellklasse:
AutoModelForCausalLM - Lizenz: MIT
- Gewichte: sharded safetensors, einschließlich BF16, F32, F8_E8M0, F8_E4M3 und INT8-Formaten
- Gesamtparameteranzahl aus safetensors: ~862 Milliarden Parameter (wahrscheinlich Summe über alle Experten)
Benchmarks und Effizienz
Der technische Bericht (noch nicht vollständig öffentlich) erwähnt, dass die hybride Aufmerksamkeit die Effizienz bei langen Kontexten drastisch verbessert. Im 1-Millionen-Token-Setting erreicht das Modell eine Reduktion der FLOPs um 73 % und des KV-Caches um 90 % im Vergleich zu V3.2.
Für Entwickler, die langkontextige Anwendungen ausführen (z. B. Dokumentenanalyse, Codebasis-Verständnis, Multi-Turn-Agenten), macht dies DeepSeek-V4 zu einer überzeugenden Wahl, um Kontextlängenbeschränkungen ohne proportionale Rechenkosten zu überwinden.
Zielgruppe
Diese Veröffentlichung richtet sich an Entwickler, die KI-Agenten erstellen, die sehr lange Dokumente, große Codebasen oder Multi-Turn-Gespräche mit vollständiger Kontextbeibehaltung verarbeiten müssen.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Docker-Container: Das Argument gegen Cron-Jobs
Eine Diskussion im r/openclaw beleuchtet das umstrittene Thema der Verwendung von Cron-Jobs innerhalb von Docker-Containern. Während die einfache Automatisierung sofort ansprechend sein mag, rät die Community davon ab.

Claude AI stellt Cowork-Plugin-Updates mit Unternehmensanpassungen und neuen Konnektoren vor.
Claude AI hat Cowork-Plugin-Updates veröffentlicht, die es Unternehmensadministratoren ermöglichen, private Plugin-Marktplätze zu erstellen und Konnektoren für Google Workspace, Docusign, Apollo und andere Tools hinzuzufügen. Eine neue Forschungsvorschau ermöglicht es Claude, in Excel und PowerPoint zu arbeiten, um End-to-End-Analysen und Präsentationserstellung durchzuführen.

Agentische KI-Fehlerarten und entwicklungsunterstützende Strukturen
Agentische KI-Systeme scheitern im Produktionseinsatz durch Alignment-Drift, Kontextverlust bei Übergaben, Grenzverletzungen und Koordinationszusammenbrüche. Die Quelle schlägt einen 'entwicklungsfördernden Gerüstbau'-Ansatz mit fünf Komponenten vor: Kohärenzüberwachung, Koordinationsreparatur, Einwilligungs- und Grenzbewusstsein, Beziehungskontinuität und adaptive Governance.

OpenAIs 10-Milliarden-Dollar-Private-Equity-Joint-Venture: Was es für die KI-Bereitstellung bedeutet
OpenAI schließt ein Joint Venture im Wert von 10 Milliarden Dollar mit Private-Equity-Firmen ab, um die KI-Infrastruktur zu skalieren und den Unternehmenseinsatz voranzutreiben, wie Bloomberg berichtet.