DeepSeek-V4 Pro und Flash: 1,6 Billionen Parameter, 1 Million Token-Kontext, Hybride Aufmerksamkeit

DeepSeek AI hat eine Vorschau der DeepSeek-V4-Serie auf Hugging Face veröffentlicht. Das Lineup umfasst zwei Mixture-of-Experts (MoE)-Sprachmodelle:
- DeepSeek-V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktiv pro Token
- DeepSeek-V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv pro Token
Beide Modelle unterstützen eine Kontextlänge von einer Million Token.
Architektonische Verbesserungen
Die V4-Serie führt einen hybriden Aufmerksamkeitsmechanismus ein, der Folgendes kombiniert:
- Compressed Sparse Attention (CSA)
- Heavily Compressed Attention (HCA)
Bei einer Kontextlänge von 1 Million Token benötigt DeepSeek-V4-Pro nur 27 % der Single-Token-Inferenz-FLOPs und 10 % des KV-Caches im Vergleich zu DeepSeek-V3.2.
Zusätzlich integrieren die Modelle Manifold-Constrained Hyper-Connections (mHC), um residuale Verbindungen zu stärken und die Trainingsstabilität zu verbessern.
Modelldetails
- Repository:
deepseek-ai/DeepSeek-V4-Proauf Hugging Face - Pipeline-Tag:
text-generation - Auto-Modellklasse:
AutoModelForCausalLM - Lizenz: MIT
- Gewichte: sharded safetensors, einschließlich BF16, F32, F8_E8M0, F8_E4M3 und INT8-Formaten
- Gesamtparameteranzahl aus safetensors: ~862 Milliarden Parameter (wahrscheinlich Summe über alle Experten)
Benchmarks und Effizienz
Der technische Bericht (noch nicht vollständig öffentlich) erwähnt, dass die hybride Aufmerksamkeit die Effizienz bei langen Kontexten drastisch verbessert. Im 1-Millionen-Token-Setting erreicht das Modell eine Reduktion der FLOPs um 73 % und des KV-Caches um 90 % im Vergleich zu V3.2.
Für Entwickler, die langkontextige Anwendungen ausführen (z. B. Dokumentenanalyse, Codebasis-Verständnis, Multi-Turn-Agenten), macht dies DeepSeek-V4 zu einer überzeugenden Wahl, um Kontextlängenbeschränkungen ohne proportionale Rechenkosten zu überwinden.
Zielgruppe
Diese Veröffentlichung richtet sich an Entwickler, die KI-Agenten erstellen, die sehr lange Dokumente, große Codebasen oder Multi-Turn-Gespräche mit vollständiger Kontextbeibehaltung verarbeiten müssen.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz
Forscher entwickelten YC-Bench, einen Benchmark, bei dem LLMs als CEOs simulierter Startups über ein Jahr hinweg agieren und Mitarbeiter, Verträge und Gehaltsabrechnungen verwalten. GLM-5 erzielte durchschnittlich 1,21 Mio. US-Dollar Endkapital bei 7,62 US-Dollar pro Durchlauf und lag damit innerhalb von 5 % von Claude Opus 4.6, das 86 US-Dollar pro Durchlauf kostete.

Apple Core AI Framework: Erster Blick auf Apples aufkommende KI-Agentenbasis
Apples neue Core AI Framework-Dokumentationsseite ist live, der Inhalt ist jedoch hinter einer JavaScript-Wand verborgen. Wir erklären, was dies für die KI-Agentenentwicklung auf Apple-Plattformen bedeutet.

Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen
Claude Code v2.1.85 fügt Umgebungsvariablen für MCP headersHelper-Skripte hinzu, bedingte if-Felder für Hooks, um Prozess-Spawning zu reduzieren, und behebt Fehler bei /compact-Fehlschlägen, Plugin-Aktivierungs-/Deaktivierungsproblemen sowie Terminal-Tastaturproblemen in Ghostty, Kitty und WezTerm.

SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit
Subquadratic bringt SubQ 1M-Preview auf den Markt, ein subquadratisches LLM mit linearem Compute-Scaling, 12-Millionen-Token-Kontext, 52× schnellerer Sparse Attention im Vergleich zu FlashAttention und 95% bei RULER 128K. Verfügbar über API, CLI-Code-Agent (SubQ Code) und Suchtool (SubQ Search).