DeepSeek-V4 ProおよびFlash:1.6Tパラメータ、100万トークンコンテキスト、ハイブリッドアテンション

DeepSeek AIは、Hugging Face上でDeepSeek-V4シリーズのプレビューを公開しました。ラインナップには2つのMixture-of-Experts(MoE)言語モデルが含まれます。
- DeepSeek-V4-Pro: 総パラメータ1.6兆、トークンあたり活性化パラメータ490億
- DeepSeek-V4-Flash: 総パラメータ2840億、トークンあたり活性化パラメータ130億
両モデルとも100万トークンのコンテキスト長をサポートしています。
アーキテクチャのアップグレード
V4シリーズは、以下を組み合わせたハイブリッド注意機構を導入しています。
- 圧縮スパース注意機構(CSA)
- 高圧縮注意機構(HCA)
100万トークンのコンテキスト長において、DeepSeek-V4-ProはDeepSeek-V3.2と比較して、単一トークン推論のFLOPsが27%、KVキャッシュが10%で済みます。
さらに、モデルは多様体制約付きハイパー接続(mHC)を採用し、残差接続を強化して学習の安定性を向上させています。
モデルの詳細
- リポジトリ: Hugging Face上の
deepseek-ai/DeepSeek-V4-Pro - パイプライインタグ:
text-generation - オートモデルクラス:
AutoModelForCausalLM - ライセンス: MIT
- 重み: シャーディングされたsafetensors(BF16、F32、F8_E8M0、F8_E4M3、INT8形式を含む)
- safetensorsからの総パラメータ数: 約8620億(おそらく全エキスパートの合計)
ベンチマークと効率性
技術レポート(まだ完全には公開されていません)によると、ハイブリッド注意機構は長コンテキストの効率を劇的に向上させます。100万トークンの設定では、V3.2と比較してFLOPsが73%削減、KVキャッシュが90%削減されます。
長コンテキストアプリケーション(例:文書分析、コードベース理解、マルチターンエージェント)を開発する開発者にとって、DeepSeek-V4は比例的な計算コストをかけずにコンテキスト長の限界を突破する魅力的な選択肢です。
対象ユーザー
このリリースは、非常に長い文書、大規模なコードベース、または完全なコンテキスト保持を必要とするマルチターン会話を処理するAIエージェントを構築する開発者を対象としています。
📖 全文のソース: HN AI Agents
👀 See Also

Redditの議論では、AI生成コードのデバッグにおける課題が浮き彫りにされています。
r/ClaudeAIでのRedditディスカッションでは、AI生成コードが開発者に直面させる具体的な問題が詳細に語られています。これには、セキュリティの脆弱性、論理の幻覚、そして手動でコードを書くよりも時間がかかるデバッグ作業などが含まれます。

Claude Codeベンチマークが明らかにしたAI評価者の盲点:パイプラインのバグがモデル能力と誤認される問題
Claude Code(Opus 4.6)による自律ベンチマーク実行では、サンドボックス設定のバグにより当初MiniMaxが「タスクを実装できない」と判定されたが、デーモンログを調査後に判定が修正された。この事例は、AI評価者がインフラの問題をモデルの弱点と確信を持って誤認し得ることを浮き彫りにしている。

Claude Code 事後報告:品質低下の原因となった3つのバグ、現在は修正済み
Anthropicは、最近のClaude Codeの品質に関する苦情が、デフォルトの推論努力の低下、キャッシュバグによるセッションメモリの喪失、および冗長性プロンプトによるコーディング品質の低下という3つの別々の変更に起因することを明らかにしました。これらはすべて4月20日(v2.1.116)時点で修正されています。

世界初のAIエージェント専用GitHubリリース:限定ベータ版を100名に提供開始
AIコーディングエージェント向けの革新的なGitHub限定サービスが開発され、100名限定のベータテストが開始されました。このツールがAIコラボレーションをどのように革新するのか、その詳細をご紹介します。