DeepSeek-V4 Pro und Flash: 1,6 Billionen Parameter, 1 Million Token-Kontext, Hybride Aufmerksamkeit

✍️ OpenClawRadar📅 Veröffentlicht: 24. April 2026🔗 Source
DeepSeek-V4 Pro und Flash: 1,6 Billionen Parameter, 1 Million Token-Kontext, Hybride Aufmerksamkeit
Ad

DeepSeek AI hat eine Vorschau der DeepSeek-V4-Serie auf Hugging Face veröffentlicht. Das Lineup umfasst zwei Mixture-of-Experts (MoE)-Sprachmodelle:

  • DeepSeek-V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktiv pro Token
  • DeepSeek-V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv pro Token

Beide Modelle unterstützen eine Kontextlänge von einer Million Token.

Architektonische Verbesserungen

Die V4-Serie führt einen hybriden Aufmerksamkeitsmechanismus ein, der Folgendes kombiniert:

  • Compressed Sparse Attention (CSA)
  • Heavily Compressed Attention (HCA)

Bei einer Kontextlänge von 1 Million Token benötigt DeepSeek-V4-Pro nur 27 % der Single-Token-Inferenz-FLOPs und 10 % des KV-Caches im Vergleich zu DeepSeek-V3.2.

Zusätzlich integrieren die Modelle Manifold-Constrained Hyper-Connections (mHC), um residuale Verbindungen zu stärken und die Trainingsstabilität zu verbessern.

Ad

Modelldetails

  • Repository: deepseek-ai/DeepSeek-V4-Pro auf Hugging Face
  • Pipeline-Tag: text-generation
  • Auto-Modellklasse: AutoModelForCausalLM
  • Lizenz: MIT
  • Gewichte: sharded safetensors, einschließlich BF16, F32, F8_E8M0, F8_E4M3 und INT8-Formaten
  • Gesamtparameteranzahl aus safetensors: ~862 Milliarden Parameter (wahrscheinlich Summe über alle Experten)

Benchmarks und Effizienz

Der technische Bericht (noch nicht vollständig öffentlich) erwähnt, dass die hybride Aufmerksamkeit die Effizienz bei langen Kontexten drastisch verbessert. Im 1-Millionen-Token-Setting erreicht das Modell eine Reduktion der FLOPs um 73 % und des KV-Caches um 90 % im Vergleich zu V3.2.

Für Entwickler, die langkontextige Anwendungen ausführen (z. B. Dokumentenanalyse, Codebasis-Verständnis, Multi-Turn-Agenten), macht dies DeepSeek-V4 zu einer überzeugenden Wahl, um Kontextlängenbeschränkungen ohne proportionale Rechenkosten zu überwinden.

Zielgruppe

Diese Veröffentlichung richtet sich an Entwickler, die KI-Agenten erstellen, die sehr lange Dokumente, große Codebasen oder Multi-Turn-Gespräche mit vollständiger Kontextbeibehaltung verarbeiten müssen.

📖 Vollständige Quelle lesen: HN AI Agents

Ad

👀 Siehe auch

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz
Nachrichten

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

Forscher entwickelten YC-Bench, einen Benchmark, bei dem LLMs als CEOs simulierter Startups über ein Jahr hinweg agieren und Mitarbeiter, Verträge und Gehaltsabrechnungen verwalten. GLM-5 erzielte durchschnittlich 1,21 Mio. US-Dollar Endkapital bei 7,62 US-Dollar pro Durchlauf und lag damit innerhalb von 5 % von Claude Opus 4.6, das 86 US-Dollar pro Durchlauf kostete.

OpenClawRadar
Apple Core AI Framework: Erster Blick auf Apples aufkommende KI-Agentenbasis
Nachrichten

Apple Core AI Framework: Erster Blick auf Apples aufkommende KI-Agentenbasis

Apples neue Core AI Framework-Dokumentationsseite ist live, der Inhalt ist jedoch hinter einer JavaScript-Wand verborgen. Wir erklären, was dies für die KI-Agentenentwicklung auf Apple-Plattformen bedeutet.

OpenClawRadar
Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen
Nachrichten

Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen

Claude Code v2.1.85 fügt Umgebungsvariablen für MCP headersHelper-Skripte hinzu, bedingte if-Felder für Hooks, um Prozess-Spawning zu reduzieren, und behebt Fehler bei /compact-Fehlschlägen, Plugin-Aktivierungs-/Deaktivierungsproblemen sowie Terminal-Tastaturproblemen in Ghostty, Kitty und WezTerm.

OpenClawRadar
SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit
Nachrichten

SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit

Subquadratic bringt SubQ 1M-Preview auf den Markt, ein subquadratisches LLM mit linearem Compute-Scaling, 12-Millionen-Token-Kontext, 52× schnellerer Sparse Attention im Vergleich zu FlashAttention und 95% bei RULER 128K. Verfügbar über API, CLI-Code-Agent (SubQ Code) und Suchtool (SubQ Search).

OpenClawRadar