DeepSeek-V4 ProとFlash比較：1.6Tパラメータ、100万トークン、27% FLOPs

DeepSeek AIは、Hugging Face上でDeepSeek-V4シリーズのプレビューを公開しました。ラインナップには2つのMixture-of-Experts（MoE）言語モデルが含まれます。

両モデルとも100万トークンのコンテキスト長をサポートしています。

アーキテクチャのアップグレード

V4シリーズは、以下を組み合わせたハイブリッド注意機構を導入しています。

100万トークンのコンテキスト長において、DeepSeek-V4-ProはDeepSeek-V3.2と比較して、単一トークン推論のFLOPsが27%、KVキャッシュが10%で済みます。

さらに、モデルは多様体制約付きハイパー接続（mHC）を採用し、残差接続を強化して学習の安定性を向上させています。

技術レポート（まだ完全には公開されていません）によると、ハイブリッド注意機構は長コンテキストの効率を劇的に向上させます。100万トークンの設定では、V3.2と比較してFLOPsが73%削減、KVキャッシュが90%削減されます。

長コンテキストアプリケーション（例：文書分析、コードベース理解、マルチターンエージェント）を開発する開発者にとって、DeepSeek-V4は比例的な計算コストをかけずにコンテキスト長の限界を突破する魅力的な選択肢です。

このリリースは、非常に長い文書、大規模なコードベース、または完全なコンテキスト保持を必要とするマルチターン会話を処理するAIエージェントを構築する開発者を対象としています。

📖 全文のソース: HN AI Agents